https://arxiv.org/pdf/2310.19380.pdf
最近的研究将卷积与transformer相结合,以引入归纳偏置并提高泛化性能。然而,常规卷积的静态性质使其无法动态适应输入的变化,导致卷积和自注意力之间的表示差异,因为自注意力动态计算注意力矩阵。此外,当堆叠由卷积和自注意力组成的token mixer以形成深层网络时,卷积的静态性质阻碍了先前由自注意力生成的特征融合到卷积核中。这两个限制导致所构建网络的表示能力次优。为了找到解决方案,我们提出了一种轻量级的双动态令牌混合器(D-Mixer),它以输入依赖的方式聚合全局信息和局部细节。D-Mixer通过对均匀分割的特征段分别应用高效的全局注意力模块和输入依赖的深度可分离卷积来工作,赋予网络强大的归纳偏置和扩大的有效感受野。我们使用D-Mixer作为基本构建块来设计TransXNet,这是一种新颖的混合CNN-Transformer视觉骨干网络,具有引人注目的性能。在ImageNet-1K图像分类任务中,TransXNet-T在top-1准确率上超过了Swin-T 0.3%,而计算成本不到其一半。此外,TransXNet-S和TransXNet-B表现出出色的模型可扩展性,分别以合理的计算成本达到了83.8%和84.6%的top-1准确率。此外,我们提出的网络架构在各种密集预测任务中表现出强大的泛化能力,在性能上优于其他最先进的网络,同时具有较低的计算成本。我们的代码将在https://github.com/LMMMEng/TransXNet上提供。
索引术语-视觉识别,视觉转换,双动态令牌混合