DCNv4:对视觉应用的动态和稀疏算子的重新思考

发布时间：2024年01月16日

摘要

https://arxiv.org/pdf/2401.06197.pdf
我们介绍了可变形卷积v4（DCNv4），这是一种高效且有效的运算符，专为广泛的视觉应用而设计。DCNv4解决了其前身DCNv3的局限性，通过两个关键改进：1. 去除空间聚合中的softmax归一化，以增强其动态属性和表达力；2. 优化内存访问以最小化冗余操作以提高速度。这些改进导致与DCNv3相比，收敛速度显著加快，处理速度大幅提升，DCNv4的前向速度提高了三倍以上。DCNv4在各种任务中表现出色，包括图像分类、实例和语义分割，尤其是图像生成。当将其集成到诸如U-Net之类的潜在扩散模型中的生成模型中时，DCNv4超过了其基线，突显了其增强生成模型的潜力。在实践应用中，将DCNv3替换为DCNv4在InternImage模型中创建FlashInternImage，可实现高达80％的速度提升和性能改进而无需进一步修改。DCNv4在速度和效率方面的进步，以及其在各种视觉任务中稳健的性能表现，表明其作为未来视觉模型的基础构建块的潜力。

1、简介

在计算机视觉领域，关于卷积网络（ConvNets）和Transformer哪个性能更优越的争论一直在进行。近年来，具有注意力机制的大型视觉模型中的Transformer模型[12、25、44]取得了显著成果，显示出超越ConvNets的潜力。然而，诸如InternImage [38]和ConvNeXt [26]等最新研究工作表明，基于ConvNet的视觉模型在各种下游任务中仍保持稳健的性能、效率和简单性，并具有适当的归纳偏差[15、41]。值得注意的是，在图像生成等领域[29、31]，卷积仍然是首选方法。

文章来源:https://blog.csdn.net/m0_47867638/article/details/135615999
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！