VLM 系列——CLIP——论文解读

发布时间：2024年01月22日

一、概述

1、是什么

论文全称《Learning Transferable Visual Models From Natural Language Supervision》，是使用图文对（将图像表征与语言联系起来）使用对比学习（有的文章称为自监督，有的文章称为无监督）训练的多模态模型。从互联网上大量文本的监督（自然语言监督）中学习，要比传统的分类数据要大得多。

可以用来图片zero-shot 分类（其实就是图-文检索，但是不同于以往的ImageNet预测一组固定的预定对象类别），文-图检索，图-图检索（文章没有提及，也没有测试）；还有后面的整个AIGC 都有他的影子，比如Stable diffusion 的图像编码器、BLIP系列的图像编码都是使用的CLIP系列的预训练权重。

2、亮点

*模型：作者提到整个模型的机构等都是有相似物的（VirTex），而batch 内将文本对的度量学习转化为分类是首次。

*数据：使用互联网数据构建了一个400M的图文数据集，进行模型训练，但是没有开源。

*结果：通过对30多个不同的现有计算机视觉数据集（集涵盖了OCR、视频中的动作识别、地理定位和许多类型的细粒度对象分类等任务）测试，zero-shot 通常与完全监督的基线相当，在ImageNet匹配原始ResNet-50的精度。

文章来源:https://blog.csdn.net/u012863603/article/details/135756990
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！