YoloV8改进策略:Agent Attention|Softmax与线性注意力的融合研究|有效涨点|代码注释与改进|全网首发(唯一)

发布时间:2024年01月15日

摘要

本文提出了一种新型的注意力机制——Agent Attention,旨在平衡计算效率和表示能力。该机制在传统的注意力模块中引入了额外的agent tokens A,这些agent tokens首先为query tokens Q聚合信息,然后将其广播回Q。由于agent tokens的数量可以设计得远小于query tokens,因此Agent Attention在保持全局上下文建模能力的同时,显著提高了计算效率。有趣的是,所提出的agent attention等价于一种广义线性注意力,Agent Attention在各种视觉Transformer和各种视觉任务中都表现出了有效性,包括图像分类、目标检测、语义分割和图像生成。特别是在高分辨率场景中,由于其线性注意力的特性,Agent Attention表现出卓越的性能。当应用于Stable Diffusion时,我们的agent attention加速了生成过程,并显著提高了图像生成质量,而无需任何额外训练。

我尝试将Agent Attention加入到YoloV8中,实现了高效的涨点。

论文《Agent Attention:Softmax与线性注意力的融合研究》

https://arxiv.org/pdf/2312.08874.pdf
在Transformer中,注意力模块是其关键组件。虽然全局注意力机制提供了高度的表达能力,但其过高的计算成本限制了其在各种场景下的应用。本文提出了一种新颖的注意力范式,称为Agent Attention,以在计算效率和表示能力之间取得良好的平衡。具体来说,Agent Attention由四个部分组成(Q, A, K, V),它在常规注意力模块中引入了一组额外的agent tokens A。这些agen

文章来源:https://blog.csdn.net/m0_47867638/article/details/135606637
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。