https://arxiv.org/pdf/2401.06197.pdf
我们介绍了可变形卷积v4(DCNv4),这是一种高效且有效的运算符,专为广泛的视觉应用而设计。DCNv4解决了其前身DCNv3的局限性,通过两个关键改进:1. 去除空间聚合中的softmax归一化,以增强其动态属性和表达力;2. 优化内存访问以最小化冗余操作以提高速度。这些改进导致与DCNv3相比,收敛速度显著加快,处理速度大幅提升,DCNv4的前向速度提高了三倍以上。DCNv4在各种任务中表现出色,包括图像分类、实例和语义分割,尤其是图像生成。当将其集成到诸如U-Net之类的潜在扩散模型中的生成模型中时,DCNv4超过了其基线,突显了其增强生成模型的潜力。在实践应用中,将DCNv3替换为DCNv4在InternImage模型中创建FlashInternImage,可实现高达80%的速度提升和性能改进而无需进一步修改。DCNv4在速度和效率方面的进步,以及其在各种视觉任务中稳健的性能表现,表明其作为未来视觉模型的基础构建块的潜力。
在计算机视觉领域,关于卷积网络(ConvNets)和Transformer哪个性能更优越的争论一直在进行。近年来,具有注意力机制的大型视觉模型中的Transformer模型[12、25、44]取得了显著成果,显示出超越ConvNets的潜力。然而,诸如InternImage [38]和ConvNeXt [26]等最新研究工作表明,基于ConvNet的视觉模型在各种下游任务中仍保持稳健的性能、效率和简单性,并具有适当的归纳偏差[15、41]。值得注意的是,在图像生成等领域[29、31],卷积仍然是首选方法。