VLM 系列——中文CLIP——论文解读

发布时间：2024年01月23日

一、概述

1、是什么

CLIP 的中文版，训练使用2亿图-文对的对比学习（不是LLM的预测下一个token），是一个双塔模型（图像和文本各子拥有一个编码器）。由于对齐了图像和文本特征，可以用来做：图-图（文章中没有相关测试任务）、图-文、文-图、文-文（文章中没有相关测试任务）的检索，当然图-文和文-图检索也可以转化为zero-shot 的分类。

2、亮点

*开源代码、模型（多个版本模型：图像编码器提供5种，参数量77-958M ）、demo，并且提供用于部署的NVIDIA TensorRT和ONNX模型，比用于推理的Pytorch模型快2到10倍。

*消融实验后验证，两阶段训练更优：使用CLIP初始化，先训练文本编码器；再联合训练。

*在MUGE、Flickr30K-CN和 COCO-CN数据集的zero-shot 和 finetune 任务上达到最先进的水平；在 ELEVATER上的zero-shot分类具有竞争力的性能。

PS

在一些场景下使用，居然base 模型性能最好，难道更大的模型过拟合了？

文章来源:https://blog.csdn.net/u012863603/article/details/135785675
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！