为了提高各种计算机视觉任务的表现,已经研究了多种注意力机制。然而,之前的方法忽视了在通道和空间两个方面保留信息以增强跨维度交互的重要性。因此,我们提出了一种全局注意力机制,通过减少信息减少和放大全局交互表示来提高深度神经网络的表现。我们引入了与多层感知器一起的多层感知器通道注意力3D排列以及卷积空间注意力子模块。在CIFAR-100和ImageNet-1K上的图像分类任务中,对所提出机制的评价表明,我们的方法在ResNet和轻量级MobileNet上都优于几种最近的注意力机制。
卷积神经网络(CNNs)已被广泛应用于计算机视觉领域的许多任务和应用中(Girshick等,2014年;Long等,2015年;He等,2016年;Lampert等,2009年)。研究人员发现,卷积神经网络在提取深度视觉表征方面表现良好。随着与卷积神经网络相关的技术进步,ImageNet数据集(Deng等,2009年)上的图像分类准确度在过去九年中从63%提高到了90%(Krizhevsky等,2012年;Zhai等,2021年)。这一成就也归功于ImageNet数据集的复杂性,它为相关研究提供了绝佳的机会。鉴于它所涵盖的现实生活场景的多样性和大规模性,它对常规图像分类基准测试、表示学习、迁移学习等方面的研究都有所裨益。特别是,它还给注意力机制带来了挑战。
近年来,注意力机制在多个应用中提高了性能,并吸引了研究兴趣(Niu等,2021年)。Wang等(2017年)使用编码器-解码器残差注意力模块来细化特征图以获得更好的性能。Hu等