On Data Scaling in Masked Image Modelin

发布时间：2024年01月17日

论文名称：On Data Scaling in Masked Image Modeling
发表时间：CVPR2023
作者及组织：Zhenda Xie, ZhengZhang, Hu Han等，来自清华，西安交大，微软亚洲研究院。

前言

?本文验证SIMMIM无监督预训练方法，是否会出现与NLP类似的拓展法则现象。

1、结论

?这篇论文做了大量的对比实验，因此，先说结论：
?1）大模型在小数据上过拟合；（感觉没啥a）
?2）MIM需要更多的训练次数 $T$ ;
?3）预训练阶段的valid loss是对下游任务性能的很好代理指标。
?总结：MIM的拓展法则可用这个式子近似：
$\begin{equation} Precision = Data\_Scale * Model\_Size * T \end{equation}$

2、实验

2.1.对比实验配置

? 1）模型：swin，参数量：50M_{1B，Flops：9G}190G；
在这里插入图片描述

?2) 数据：如下图所示，将ImageNet1k按百分比划分出若干组子数据；
在这里插入图片描述

?3) 训练时长：125k，250k以及500k。在ImageNet1k上换算就是200,400,800epochs。

2.2.Pretrained实验结论：

在这里插入图片描述

?上图表示在不同训练时长下在ImageNet1k上的精度：
?首先说下simmim预训练方法的一个性质：能够用较少的数据跟用大量数据的有监督学习的精度持平。
?1）第二列：Swin_L比Swin_H精度高，因为后者在IN1k20%出现过拟合；
?2）当IN1k增加到IN22k时，Swin_H和Swin_G看起来饱和了。这应该是这俩模型的上限了，要想精度更高可能需要调大模型。
?3）在800epoch下，IN1K对于上述五个模型均未出现过拟合！IN1k对于小模型的数据量是够用的。

2.3.Finetune实验结论：

?这里主要贴下coco上实验结论：在IN1k下在800epoch下，mAP是一直涨，但在IN22K下mAP似乎也饱和了。（论文中更大模型实验没做a…）
在这里插入图片描述

2.4.Pretrain stage的valid loss是Finetune的代理指标

在这里插入图片描述

?上图红圈表示过拟合模型，绿圈表示非过拟合模型；不管过不过拟合在valid loss跟mAP是正相关的。

2.5.结论

?在IN1k，小模型swin_s/b，只要在预训练阶段valid loss持续下降，则训练时长越长越好（至少800epoch）。

文章来源:https://blog.csdn.net/wulele2/article/details/135659736
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！