VLM 系列——Instruct BLIP——论文解读

发布时间:2024年01月22日

一、概述

1、是什么

    Instruct BLIP 全称《InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning》,是一个多模态视觉-文本大语言模型,隶属BLIP系列第三篇,可以完成:图像描述、视觉问答、名画名人等识别(问答、描述)。支持单幅图片输入(作为第一个输入),多轮文本对话。(不支持图文交错输入、写代码、视觉定位、JSON mode等。)

    整体架构沿用BLIP2,在Q-former中多加入了文本prompt token来和图片进行交互。构造一个指令数据集,只训练q-former。

2、亮点

    *对视觉语言指令调优进行了全面而系统的研究。将26个数据集转换为指令调优格式(13个用于指令调优,13个用于zero-shot评估),并将其分为11个任务类别(保留了四个完整的任务类别,以便在任务水平上进行zero-shot评估)。

    *提出了指令感知的视觉特征提取,这是一种新的机制,可以根据给定的指令灵活地提取信息丰富的特征。

    *使用两个LLM家族评估并开源了一套InstructBLIP模型:FlanT5、Vicuna。

PS

    这里要注意其实BLIP2的Q-former 也是有文本输入的,也可以作为prompt,只是可能没有专门经

文章来源:https://blog.csdn.net/u012863603/article/details/135756707
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。