VLM 系列——Instruct BLIP——论文解读

发布时间：2024年01月22日

一、概述

1、是什么

Instruct BLIP 全称《InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning》，是一个多模态视觉-文本大语言模型，隶属BLIP系列第三篇，可以完成：图像描述、视觉问答、名画名人等识别（问答、描述）。支持单幅图片输入（作为第一个输入），多轮文本对话。（不支持图文交错输入、写代码、视觉定位、JSON mode等。）

整体架构沿用BLIP2，在Q-former中多加入了文本prompt token来和图片进行交互。构造一个指令数据集，只训练q-former。

2、亮点

*对视觉语言指令调优进行了全面而系统的研究。将26个数据集转换为指令调优格式（13个用于指令调优，13个用于zero-shot评估），并将其分为11个任务类别（保留了四个完整的任务类别，以便在任务水平上进行zero-shot评估）。

*提出了指令感知的视觉特征提取，这是一种新的机制，可以根据给定的指令灵活地提取信息丰富的特征。

*使用两个LLM家族评估并开源了一套InstructBLIP模型：FlanT5、Vicuna。

这里要注意其实BLIP2的Q-former 也是有文本输入的，也可以作为prompt，只是可能没有专门经

文章来源:https://blog.csdn.net/u012863603/article/details/135756707
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！