VLM 系列——中文CLIP——论文解读

发布时间:2024年01月23日

一、概述

1、是什么

    CLIP 的中文版,训练使用2亿 图-文 对的对比学习(不是LLM的预测下一个token),是一个双塔模型(图像和文本各子拥有一个编码器)。由于对齐了图像和文本特征,可以用来做:图-图(文章中没有相关测试任务)、图-文、文-图、文-文(文章中没有相关测试任务)的检索,当然 图-文 和 文-图 检索 也可以转化为zero-shot 的分类。

2、亮点

     *开源代码、模型(多个版本模型:图像编码器提供5种,参数量77-958M )、demo,并且提供用于部署的NVIDIA TensorRT和ONNX模型,比用于推理的Pytorch模型快2到10倍。
    *消融实验后验证,两阶段训练更优:使用CLIP初始化,先训练文本编码器;再联合训练。
    *在MUGE、Flickr30K-CN和 COCO-CN数据集的zero-shot 和 finetune 任务上达到最先进的水平;在 ELEVATER上的zero-shot分类具有竞争力的性能。

PS

    在一些场景下使用,居然base 模型性能最好,难道更大的模型过拟合了?
文章来源:https://blog.csdn.net/u012863603/article/details/135785675
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。