1. 首先提供原始论文,VIT(An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale)模型提出论文下载:VIT论文??;
2.推荐的代码仓库,可以star我这个GitHub开源项目,对每行代码有详尽的注释:VIT模型详解
本篇博客和GitHub仓库,后面会持续更新,欢迎star;
????????本篇文章首次发表在2021年ICLR上,首次将transformer模型运用到CV领域并且取得了相当高的分类效果,模型原理图如图1所示。模型提出将一幅图像切分成固定大小的patch(一般为16*16),然后进行线性排列后嵌入,为每个patch添加类别编码和位置编码之后输入到transformer编码器中,最后通过MLP进行分类预测。整篇文章最难理解的就是Transformer编码器结构中的多头注意力机制,下面我们来理解模型原理。
1.