全局注意力机制(GAM)是一种注意力机制,旨在在减少信息弥散的情况下放大全局维交互特征。它采用序贯的通道-空间注意力机制,并重新设计了CBAM子模块。通道注意力子模块使用三维排列来在三个维度上保留信息,用一个两层的MLP(多层感知器)放大跨维通道-空间依赖性。空间注意力子模块使用两个卷积层进行空间信息融合,同时从通道注意力子模块中使用了与BAM相同的缩减比r。
GAM注意力机制的目的是设计一种能够在减少信息弥散的情况下放大全局维交互特征的机制,从而在图像分类任务中提高准确率。
为了提高各种计算机视觉任务的表现,已经研究了多种注意力机制。然而,之前的方法忽视了在通道和空间两个方面保留信息以增强跨维度交互的重要性。因此,我们提出了一种全局注意力机制,通过减少信息减少和放大全局交互表示来提高深度神经网络的表现。我们引入了与多层感知器一起的多层感知器通道注意力3D排列以及卷积空间注意力子模块。在CIFAR-100和ImageNet-1K上的图像分类任务中,对所提出机制的评价表明,我们的方法在ResNet和轻量级MobileNet上都优于几种最近的注意力机制。
卷积神经网络(CNNs)已被广泛应用于计算机视觉领域的许多任务和应用中(Girshick等,2014年;Long等,2015年;He等,2016年;Lampert等,2009年)。研究人员发现,卷积神经网络在提取深度视觉表征方面表现良好。随着与卷积神经网络相关的技术进步,ImageNet数据集(Deng等,2