https://arxiv.org/pdf/2310.19380.pdf
最近的研究将卷积与transformer相结合,以引入归纳偏置并提高泛化性能。然而,常规卷积的静态性质使其无法动态适应输入的变化,导致卷积和自注意力之间的表示差异,因为自注意力动态计算注意力矩阵。此外,当堆叠由卷积和自注意力组成的token mixer以形成深层网络时,卷积的静态性质阻碍了先前由自注意力生成的特征融合到卷积核中。这两个限制导致所构建网络的表示能力次优。为了找到解决方案,我们提出了一种轻量级的双动态令牌混合器(D-Mixer),它以输入依赖的方式聚合全局信息和局部细节。D-Mixer通过对均匀分割的特征段分别应用高效的全局注意力模块和输入依赖的深度可分离卷积来工作,赋予网络强大的归纳偏置和扩大的有效感受野。我们使用D-Mixer作为基本构建块来设计TransXNet,这是一种新颖的混合CNN-Transformer视觉骨干网络,具有引人注目的性能。在ImageNet-1K图像分类任务中,TransXNet-