论文标题:LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing
论文作者:Wei-Ge Chen, Irina Spiridonova, Jianwei Yang, Jianfeng Gao, Chunyuan Li
作者单位:Microsoft Research, Redmond
论文原文:https://arxiv.org/abs/2311.00571
论文出处:–
论文被引:2(12/31/2023)
论文代码:https://github.com/LLaVA-VL/LLaVA-Interactive-Demo,219 star
项目主页:https://llava-vl.github.io/llava-interactive/
LLaVA-Interactive 是多模态人机交互的研究原型。该系统可通过接收用户的多模态输入并生成多模态响应,与人类用户进行多轮对话。重要的是,LLaVA-Interactive 不局限于语言提示,它还启用了视觉提示,以便在交互中与人类意图保持一致。LLaVA-Interactive 的开发极具成本效益,因为该系统结合了预建人工智能模型的三种多模态技能,无需额外的模型训练:LLaVA [13] 的视觉聊天,SEEM [31] 的图像分割以及 GLIGEN [11] 的图像生成和编辑。本文介绍了一系列不同的应用场景,以展示 LLaVA-Interactive 的前景,并激发未来对多模态交互系统的研究。
大型语言模型(LLM)[17 , 5]的快速发展彻底改变了聊天机器人系统。例如,OpenAI 的 ChatGPT [16] 在人机交互方面展现了前所未有的智能水平。ChatGPT 在语言任务上的成功激励了社区,他们期待将这一成功扩展到多模态领域,最终开发出通用的多模态人工智能智能体(Agent)[9]。GPT-4V [18] 的发布是朝着这一目标迈出的一大步。虽然 GPT-4V 展示了许多令人印象深刻的人工智能技能 [27, 15],但对于开源研究社区来说,仅基于 GPT-4V 构建多模态对话式人工智能智能体(Agent)仍具有挑战性,原因有二。
为了减轻这些挑战,我们提出了 LLaVA-Interactive 这个开源研究原型系统,它可以通过接收用户的多模态输入并生成多模态响应,与人类用户进行多轮对话。LLaVA-Interactive 结合了预建人工智能模型的三种多模态技能,无需额外的模型训练:
我们希望 LLaVA-Interactive 能与 GPT-4V 相辅相成,共同开发未来的多模态人工智能智能体(Agent),因为 LLaVA-Interactive 通过支持更丰富的视觉提示和开放源代码,提供了一个更具扩展性的框架。
在本文的其余部分,第 2 节回顾了相关工作。第 3 节介绍了 LLaVA-Interactive 的界面、工作流程和人工智能技能。第 4 节介绍了使用 LLaVA-Interactive 开发人工智能智能体(Agent)以协助摄影艺术家的案例研究。第 5 节介绍了对 LLaVA-Interactive 的初步评估。
现有的大多数 LMM 都是为支持视觉聊天(图像理解和推理)而开发的。
这两项研究都证明了 LLM 在图像输出方面的扩展能力。与它们类似,LLaVA-Interactive 也支持图像生成/编辑和分割。LLaVA-Interactive 在两个方面与现有研究不同:
受用于语言任务的单一统一语言模型 ChatGPT 的成功启发,建立一个具有单一多模态基础模型的通用助手以完成更复杂的任务大有可为[9]。虽然针对所有视觉语言任务的统一 LMM 的开发仍处于探索阶段 [30, 10 , 6, 2, 14, 23 , 24],但我们相信这一方向在开启新的应用场景方面大有可为。我们将 LLaVA-Interactive 作为一个演示,展示这一研究方向的潜力,包括连接视觉和语言任务、完成各种域外任务(tasks in the wild)以及提供多模态可提示用户界面[9]。
图 1 展示了 LLaVA-Interactive 的用户界面。界面的整体布局如图(a)所示,由三个面板组成,并用不同颜色标注,以方便展示。
为了说明人类如何利用视觉提示与 LLaVA-Interactive 交互,我们在图 1 的子图中为每个选项卡提供了一个示例。
图 2 提供了 LLaVA-Interactive 的工作流程。我们将典型的可视化创建过程描述如下:
LLaVA-Interactive 在 LLaVA 的基础上进行了功能扩展,支持用户绘制笔画和边界框等可视交互,以及可视图像生成/编辑。请参阅下面的功能比较:
LLaVA-Interactive 是一个一体化演示,它在一个互动会话中连接了三个 LV 模型,用于图像聊天、分割和生成/编辑,可以完成比单个模型更复杂的任务。作为背景介绍,我们将简要介绍各个模型,供对关键技术感兴趣的人参考:
LLaVA-Interactive 是一个系统级协同演示。它展示了通过利用现有模型检查点创建通用助手/智能体(Agent)的能力,无需额外的模型训练。虽然对人工智能模型的训练要求极低,但在开发 LLaVA-Interactive 的过程中,我们遇到了各种技术挑战。
为了说明 LLaVA-Interactive 带来的更佳用户交互体验和应用场景,我们介绍了一个案例研究,重点是将其用作摄影艺术家的通用助手。图 3 展示了一个多轮多模态交互式图像编辑过程。图的左侧显示了每一轮的交互类型和功能,右侧则详细描述了交互过程。用户与助手之间以语言为基础的对话以文本形式呈现,用户的视觉提示以洋红色文本形式显示,图像编辑结果以处理后的图像形式显示。
我们在图 3 中描述了本案例研究的交互过程,该图可作为第 5 节中展示更多应用场景的示例。
1 一位用户首先上传了一张湖景图片,并征求改善视觉效果的建议。助手建议删除伸入水中的木质码头。
2 根据建议,用户转到 “移除和更改物体” 选项卡,选择 “描边” 模式,在图像的码头上绘制一条描边,然后单击 “分割”。码头的分割蒙版就会显示出来,在本例中以洋红色显示。用户可以进一步将掩码从图像中拖出,然后单击 “生成”,随后就会显示出没有码头的清澈湖面的更新图像。
3 根据更新后的图像,用户会进一步询问改善视觉效果的建议。助手建议移除湖中央的小码头。
4 根据建议,用户再次打开 “删除和更改物体” 选项卡。这一次,用户使用文本提示模式来分割物体,方法是选择文本,在输入引用文本框中输入 “码头”,然后单击分割按钮。Dock 的分割蒙版以洋红色显示。按照同样的拖动和生成步骤,突出显示的基座将从图像中移除。
5 用户希望得到更多改善图片视觉效果的建议,助手推荐了几个具体选项,其中提到了添加日落以增强图片的整体美感。
6 用户再次使用文本提示模式选择天空区域。要使用新物体替换选中的掩码,用户在 “输入生成新图像的基础文本” 框中输入 “日落场景”,然后单击 “生成”。一幅天空中有日落的新图像就显示出来了。
7 用户询问了进一步的编辑建议,发现夕阳在水面上的倒影可以使图像更吸引人、更逼真。
8 通过对水面执行类似的基于文本提示的分割和替换程序,图像的湖面上出现了天空中夕阳的倒影。
9 用户询问对最终成品的意见。助手认为这个最终版本可以有效传达自然之美。
请参考图 4 和图 5 中的用户助手交互。对于内容创建者来说,从零开始联合创建视觉场景及其相关文本是非常有用的。在这个场景中,用户可以根据文本生成一个宁静、放松的户外场景,并通过画框指定空间布局。图像生成后,用户可以要求助手使用文本对图像进行描述和宣传。一次拍摄生成的视觉图像可能并不完美,可以反复改进,例如,在本例中,可以通过视觉提示去除灰色的海岸并添加一只白色的鹅。对于最终图像,用户可以要求助手制作一首中英文诗歌来宣传图像。必要时,用户还可以询问合成图像是否合理,例如天鹅与船的大小对比。可以看出,LLaVA-Interactive 的文字描述和回应往往与编辑后的图像是一致的。
请参考图 6、图 7 和图 8 中的用户辅助交互。为万圣节等节日设计具有视觉吸引力的海报和礼品卡需要富有想象力的概念和引人注目的美感。例如,在制作万圣节海报时,用户可以要求人工智能助手提供一系列创意,然后选择其中一个转化为图像。为了完善生成的图片,用户可以寻求更多建议,例如加入蝙蝠、将稻草人换成幽灵、移除较小的稻草人、添加骷髅、用蜘蛛网代替南瓜等。做出这些调整后,用户可以要求反馈,助手会确认设计有效地抓住了万圣节的精神。
请参考图 9 和图 10 中的用户助手交互。设想有一天,用户看到运动衫背面有设计好的英文文字和图片,并希望在穿运动衫时个性化设计。首先要看运动衫上写了什么以及文字的含义。用户提出相关问题,助手就能正确回答这两个问题。这个简单的应用程序可以广泛用于识别市场上各种衣服上的文字。
通过 LLaVA-Interactive,用户可以按照个性化要求进一步编辑图片,添加蓝色帽子和太阳镜。助手可以对新图片进行评论,说 “设计的卡通熊戴着太阳镜和帽子,可能会吸引喜欢动物或有幽默感的孩子”。这种鼓励性的评论可以增强孩子对自己设计技能的信心。
助手还在评论中提到了城市 “丹佛”,助手猜测这可能是孩子的家乡或他们喜欢去的地方。根据这些评论,用户希望设计一幅新的丹佛市自然风景照片。为此,用户首先删除了小熊,只留下了背景;然后,用户通过指定物体的空间布局 “湖、船、帐篷、雪山” 来创建新的场景。有了新的图像,助手认为这是儿童服装的最佳选择,因为它兼具美感和想象力。
Dinner Preparation for a Romantic Date
请参考图 11 中的用户助手交互。人们通常喜欢拍摄美味佳肴的照片。在计划浪漫晚餐时,人们通常会花时间和心思精心制作完美的菜肴,并辅以美酒和鲜花。尽管如此,他们仍然会担心晚餐是否准备充分,或者是否有任何可以改进的地方。
在这种情况下,我们建议使用 LLaVA-Interactive 获得宝贵的意见和建议。助手在表达对晚餐的热情的同时,也会提出一些具体的建议,比如加入沙拉来提升主菜的档次,使用蜡烛来营造温馨的氛围。通过实施这些建议,用户可以修改图像,制定各种虚拟晚餐方案,并提交给助手进行评估。一旦确定了理想的解决方案并得到助理的积极反馈,用户还可以要求就该特定晚餐的适当约会礼仪提供指导。
Food Preparation Recipe
请参考图 12 和图 13 中用户与助手的交互。在另一个例子中,用户可以使用现有的食材准备饭菜,询问必要的食材和烹饪说明。用户还可能决定更改某些元素,例如用大米代替黄油。再次询问同样的问题时,系统会提供最新的配料和烹饪说明列表,并附上修改后的烹饪提示。
请参考图 14 中的用户辅助交互。视觉叙事的过程通常需要创造力和大量的时间投入,因为它涉及到开发引人注目的图像和富有想象力的文本。有时可能需要对视觉效果进行调整,以确保它们与整个场景相协调。在图 14 中,LLaVA-Interactive 可以为孩子们提供详细的描述和一个神奇的故事。
用户可以要求对图片进行可能的编辑,以获得更加奇思妙想的故事。系统会推荐一些更有趣、更富有想象力的元素,包括发光的蘑菇和超大的乐器。用户可以按照自己的想法,在图像中涂画新的物体,如在左侧第一个人物前面涂画一个生长的蘑菇,为正在打鼓的第四个人物涂画一个超大的鼓。
Scientific Education.
请参考图 15 和图 16 中的用户辅助交互。为了吸引儿童学习科学概念,使用视觉图像和熟悉的主题(如卡通人物)来呈现信息是非常有效的。例如,生活在西雅图地区的儿童可能会被一幅以太空针塔和恐龙为主题的图片所吸引,该图片以粉色天空为背景,营造出一幅生动活泼的场景。这样的图片会因为其可识别的元素而吸引孩子的兴趣。然后,孩子可能会询问有关霸王龙的信息、粉色天空背后的原因、正午天空的颜色以及为什么会发生变化。此外,还可以将霸王龙换成各种机器人,促使孩子询问它们的功能和概念。通过使用熟悉且具有视觉吸引力的元素,学习科学知识可以成为孩子们的一种愉快体验。
Cartoon Reading Education.
请参考图 17 中的用户辅助交互。要提高解读漫画的能力,关键是要理解图像中的不同细节可以传达不同的含义。例如,在查看一幅社论漫画时,漫画中的一名男子身穿标有 “PRESS” 字样的衣服,并被球和链条捆绑着,助手可能会解释说,这幅图像隐喻了记者在追求真理的过程中遇到的障碍,以及维护其言论自由的意义。但是,如果去掉 “PRESS” 标签,再问同样的问题,回答可能会大相径庭。这幅漫画可能仍然传达了有关该男子所面临的挑战和压力的强烈视觉信息,但如果没有 “PRESS” 标签提供的背景,解释可能会大相径庭。
Interior Design: Large Living Room.
请参考图 18 和图 19 中的用户辅助交互。室内设计可以通过试错过程逐步完善。最初,用户根据文字描述提示创建图像,并就如何使设计现代化寻求建议。建议可能包括融入极简元素、采用现代风格、添加盆栽植物以及在墙上展示现代艺术品。然后,用户可以通过分割物体来修改设计,并使用笔划和文本提示进行调整。这样,这些新元素就会融合在一起,创造出一个更加舒适、更加新颖的客厅设计。
Interior Design: Small Living Room.
请参考图 20 和图 21 中用户与助手的交互。在另一个客厅设计场景中,助手提供了大量的改进方案。用户利用人工智能的交互式细分能力选择沙发和桌子,将它们更新为现代风格。此外,用户还使用接地的内画技能摆放了一盆植物。用户还可以询问具体的物件,如电视机的位置或更换吸顶灯。根据用户的建议,可以使用分割和内画技能对这些物体进行修改,以达到所需的效果。
请参考图 22 中的用户助手交互。检测图像中的异常、反常和危险项目是安全和安保的一个重要方面。这一过程通常包括分析图像,以检测任何可能构成风险或偏离常规的物体或图案。我们以广为流传的极端熨烫图像为例,说明这一使用场景。一个典型的问题是报告图像中有哪些不寻常之处。我们会进一步询问潜在的危险。由于使用了底层 LLaVA 模型,LLaVA-Interactive 能够对此做出正确回应。由于行驶中的汽车和正在熨烫衣服的男子同时出现,图像显得很不寻常。我们通过每次移除一个元素来消除这一现象。移除人之后,熨烫活动就不会被报告。取而代之的是,在行驶的汽车上摆放一把椅子成为关键的不寻常元素。将行驶中的出租车换成鲜花,行驶中的汽车就不会被报告。取而代之的是,助手认为该男子骑着一辆自行车,车上载着一大束五颜六色的鲜花,这才是不寻常之处。这是有可能的,因为骑车的人可能躲在花丛后面。这种综合分析方法可以有效地检查视觉场景,识别异常情况。
在本文中,我们介绍了 LLaVA-Interactive 这一研究演示原型,它展示了具有视觉输入、输出和交互功能的大型多模态模型的实际应用。LLaVA-Interactive 在系统开发中具有成本效益,因为它利用网络服务将三个预先训练好的互补技能多模态模型结合在一起,而不需要额外的模型训练:LLaVA 用于视觉聊天,SEEM 用于交互式图像分割,GLIGEN 用于接地图像生成和编辑。在系统层面,与其他系统相比,LLaVA-Interactive 在输入、输出和交互方面是一个完全的视觉语言多模态系统,尤其是在支持图像分割和生成/编辑的视觉提示方面独树一帜。我们对 LLaVA-Interactive 在各种实际应用场景中的初步评估表明,该系统具有出色的执行新的复杂任务的能力。我们希望这将激发对多模态基础模型的进一步研究。
我们确定了未来研究的几种潜在途径: