Revealing the Dark Secrets of MIM

发布时间：2024年01月17日

论文名称： Revealing the Dark Secrets of Masked Image Modeling
发表时间：CVPR2022
作者及组织：Zhenda Xie, Zigang Geng, Hu Han等，来自清华，中科院，微软亚洲研究院。

前言

?本文尝试探讨MIM为何有效的原因。

1、结论

?由于是篇充满可视化及对比实验的文章，因此先说结论：
?1) MIM能给模型所有层带来归纳偏置;
?2) MIM能给不同Head带来多样性；
?3) MIM在感知任务和细分类任务上优于全监督预训练。

2、对比实验条件设置

?Backbone：VIT-B
?预训练方法：全监督（DeiT），对比学习（Moco），MIM

3、可视化角度

?论文从不同角度，可视化了三种预训练方法的热图。下面将分别介绍:

3.1.Head内的平均注意力距离（AAD）

?简单说下平均注意力距离计算方法：在得到Attntion Mat后，遍历每个token与之匹配token 的相对距离，将其求和在除以token总数。因而能够定性表示Attntion Mat关注的相对位置远近的分布(引入归纳偏置)。
在这里插入图片描述

?在上图中，横坐标表示不同层，纵坐标表示AAD，每个圆圈表示一个Head。全监督和对比预训练在最后三层AAD基本一致，而MIM还保持了较大分布范围，因此便得出MIM能给不同层带来归纳偏置。

3.2.Head权重值的熵(权重值的分布)

?论文之后可视化了每个Head的熵(-p*logp)分布，能够衡量每个Head属于全局注意力Or局部注意力。
在这里插入图片描述

?从上图可以看出，全监督和对比预训练方法在最后三层的Head熵挺大的，表示Attention Mat关注的范围更广，即全局注意力；而MIM则在最后三层熵分布范围广，即保证局部注意力同时也保证了全局注意力。

3.3.不同Head之间权重分布相似性

? 上述两个指标表示MIM的Head关注范围丰富，但无法确定Head与Head之间分布相似性，因此作者又衡量了不同Head之间的分布的相似性，即利用KL散度。
在这里插入图片描述

? 上图中大圆圈表示当前层平均KL散度，MIM相较前两种预训练方法在后三层KL散度更大。即不同Head关注的token不一致。

3.4.特征图FM之间相似性

? 作者借助CKA指标观察了不同FM的相似度。下图是12层FM之间热力图，颜色越亮表示越相似。可以发现，MIM层与层之间FM趋于相似。

在这里插入图片描述

4、实验角度

?该章节则是从对比实验角度比较三种预训练方法。
在这里插入图片描述

?在感知任务上MIM效果更好，得益于MIM引入归纳偏置和Attntion Mat多样性丰富。

文章来源:https://blog.csdn.net/wulele2/article/details/135659780
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！