详解VIT(Vision Transformer)模型原理, 代码级讲解

发布时间:2024年01月16日

一、学习资料链接准备

1. 首先提供原始论文,VIT(An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale)模型提出论文下载:VIT论文??;

2.推荐的代码仓库,可以star我这个GitHub开源项目,对每行代码有详尽的注释:VIT模型详解

本篇博客和GitHub仓库,后面会持续更新,欢迎star;

二、模型亮点及整体架构介绍

????????本篇文章首次发表在2021年ICLR上,首次将transformer模型运用到CV领域并且取得了相当高的分类效果,模型原理图如图1所示。模型提出将一幅图像切分成固定大小的patch(一般为16*16),然后进行线性排列后嵌入,为每个patch添加类别编码和位置编码之后输入到transformer编码器中,最后通过MLP进行分类预测。整篇文章最难理解的就是Transformer编码器结构中的多头注意力机制,下面我们来理解模型原理。

三、自注意力机制原理理解

1.

文章来源:https://blog.csdn.net/qq_43449643/article/details/135623953
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。