EVA:Exploring the Limits of Masked Visual Representation Learning at Scale

发布时间：2024年01月08日

文章目录

Abstract
Highlight
Introduction

Abstract

EVA是一个基础的Transformer视觉模型
预训练任务：训练的图片是masked掉的50%的patches, 模型的任务是预测被遮挡的图像特征。
模型经过预训练，学会了通过图像和文本的对齐关系来重构被遮挡的部分，使其能够理解图像和文本之间的关联。
通过这个预训练任务，我们能够高效地将EVA扩展到十亿个参数。
这样就可以得到很大的模型，在下游任务上会有很好的表现

通过MIM 预训练，使得基于CLIP的预训练模型变大，得到1B param的EVA
，这个EVA模型迁移在下游任务中表现非常好。

Highlight

用EVA初始化的CLIP模型，无论文是数据量，还是GPUs消耗情况，都比原始的CLIP要高效和有效。这样不但加速了训练的过程，而且提高了zero-shot classification的表现。

Introduction

为大规模视觉表征学习找到了一个合适的MIM预训练目标
在1B-parameters with 亿级未标签的数据的量级探索它的极限

EVA arxiv
EVA这篇论文翻译写的很好

文章来源:https://blog.csdn.net/qq_45842681/article/details/135459468
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！