MLP-Mixer: An all-MLP Architecture for Vision

发布时间：2024年01月15日

Abstract

在计算机视觉领域，卷积神经网络（CNNs）是首选的模型。最近，基于注意力机制的网络，如Vision Transformer，也变得流行起来。在这篇论文中，我们展示了卷积和注意力虽然都足以实现良好的性能，但它们两者都不是必需的。我们提出了MLP-Mixer，这是一种仅基于多层感知机（MLPs）的架构。MLP-Mixer包含两种类型的层：一种是独立应用于图像块的MLPs（即“混合”每个位置的特征），另一种是跨图像块应用MLPs（即“混合”空间信息）。在大型数据集上进行训练，或使用现代正则化方案时，MLP-Mixer在图像分类基准测试中取得了竞争性的分数，其预训练和推断成本与最先进的模型相当。我们希望这些结果能够激发超越已经建立的CNNs和Transformers领域的进一步研究。

1 Introduction

计算机视觉的历史表明，更大的数据集与增强的计算能力往往导致范式转变。尽管卷积神经网络（CNNs）一直是计算机视觉的事实标准，但最近基于自注意力层的Vision Transformers [14]（ViT）取得了最先进的性能，成为一种替代方案。ViT延续了去除手工制作的视觉特征和归纳偏见的长期趋势，并进一步依赖于从原始数据中学习。

我们提出了MLP-Mixer架构（简称"Mixer"），这是一种竞争性但在概念上和技术上简单的替代方案，不使用卷积或自注意力。相反，Mixer的架构完全基于多层感知机（MLPs），这些MLPs反复应用于空间位置或特征通道。Mixer

文章来源:https://blog.csdn.net/qq_25763027/article/details/135603573
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！