论文地址:arxiv.org/pdf/2103.14030.pdf
SwinTransformer是一种基于transformer的图像分类网络结构。SwinTransformer是由微软亚洲研究院提出的,其特点是具有高效的计算和参数效率。
SwinTransformer的网络结构主要包括以下几个部分:
图片块划分:将输入的图片划分成多个非重叠的小块。
窗口分区:将小块按照一定的窗口大小进行分区。每个分区由一个可学习的线性变换独立处理。
深层网络:每个分区的特征经过深层网络处理,得到更高级别的特征表示。
跨窗口连接:不同分区之间通过跨窗口连接(window-based token mixing)进行信息交流,以增强特征的表达能力。
注意力机制:使用transformer中的多头自注意力机制,对输入的特征进行加权融合和信息交互。
分类头:在顶层引入一个全局的平均池化操作,产生图像级别的特征表示?