Yutong Bai, UC Berkeley, Paper
我们介绍了一种新的顺序建模方法,该方法可以在不使用任何语言数据的情况下学习大视觉模型(LVM)。为此,我们定义了一个通用格式“视觉句子(visual sentences)”,其中我们可以表示原始图像和视频以及带注释的数据源,例如语义分割和深度重建,而不需要像素之外的任何元知识。一旦这种各种各样的视觉数据(由 420 亿个标记组成)表示为序列,就可以训练模型以最小化下一个标记预测的交叉熵损失。通过跨各种规模的模型架构和数据多样性进行训练,我们提供了经验证据,证明我们的模型有效地扩展。在测试时设计合适的视觉提示,可以解决许多不同的视觉任务。
把图像变成类似于文本的token,然后直接利用语言模型对token进行预测,大力出奇迹,但是实验细节很有趣。
GPT和LLaMA等大型语言模型已经席卷全球。构建大型视觉模型(LVM)需要什么?从动物的世界里,我们知道视觉能力并不依赖于语言。特别是,许多实验表明,非人类灵长类动物的视觉世界与人类的视觉世界非常相似。因此,尽管LLaVA等视觉语言模型的空间很有趣,值得探索,但在本文中,我们寻求一个不同问题的答案——我们离像素能走多远?
我们试图在LVM中模仿的目前LLM的关键特征是:1)在大数据存在的情况下进行扩展,以及2)通过提示(上下文学习)灵活指定任务。我们如何做到这一点?通常,必须指定三个主要组件:
数据:我们希望利用视觉数据中的所有显着多样性。首先,只有原始的未注释图像和视频。接下来,我们希望利用过去几十年产生的各种带注释的视觉数据源——语义分割、深度重建、关键点、3D对象的多个视图等。我们定义了一个通用格式“视觉句子”,其中表示这些不同的注释,而不需要像素之外的任何元知识。我们的训练数据集的总大小为 16.4 亿个图像/帧。
架构:用token生成器将图片转换为256矢量量化token的字符串,然后用一个大transformer(30亿个参数)在token序列的视觉数据上进行训练。
损失函数:我们从自然语言社区中获得了灵感。一旦图像/视频/注释图像都可以表示为序列,我们就可以训练模型以最小化预测下一个token的交叉熵损失。
本文提出称为统一视觉的数据集 v1 (UVDV1)。为了构建它,我们利用了许多不同的视觉数据来源:(1)未标记图像,(2)带有视觉注释的图像,(3)未标记的视频,(4)带有视觉注释的视频,以及(5)3D合成对象。
如上图所示,首先使用VQGAN编码器将视觉句子中的单个图像转换为离散token。然后将来自所有图像的结果标记连接成一个一维序列,并输入到自回归 Transformer 模型中以预测序列中的下一个标记。使用VQGAN解码器将预测的视觉token解码为图像。简单来说,假设给定5个图像组成的视觉句子,就是用前4个预测最后一个图像,只不过这里的图像被编码为token,模型预测的也是整个token,然后解码得到图像。
我们从视觉上提示 LVM 的最直观和最直接的方法开始:顺序推理。这里提示构造非常简单:我们以 7 张图像的序列呈现模型,并要求它预测下一个图像(256 个标记)。
视频帧预测。顺序提示最直接的任务是视频预测。在顶部,7 帧提示(蓝色边界)后跟预测帧(红色边界)。我们观察到空间定位、视点和对象理解的一定程度的推理能力。Kinetics val 集上预测的困惑度为 49.8。最后 4 行显示了使用较长上下文(15 帧)和较长预测(4 帧)的预测。
旋转和类别预测。相同类型的简单顺序提示也可以用于其他方式。例如,下图1显示了如何使用围绕任意轴的合成对象的一系列 3D 旋转提示模型,使其能够预测进一步的旋转。或者我们可以将给定类别的项目列表视为序列并预测同一类别中的其他想法,如下图2所示。请注意,虽然系统是在来自同一 ImageNet 类别的图像组上训练的,但这里的提示由草图组成,这些草图在任何注释数据中都没有看到。
我们的研究通过评估更复杂的提示结构来进行,我们称之为“类比提示”。这种方法挑战模型理解任意长度的类比和复杂性,从而测试其先进的解释能力。
定性结果。下图 显示了在许多任务上通过类比提示对定性结果进行采样。提示由一系列 14 张图像组成,给出各种任务的示例,然后是第 15 个查询图像。给定每个提示,预测的下一个图像是结果。图的顶部显示了几个示例提示,定义了作为训练集一部分的任务(但这些实际图像在训练中从未见过)。图的底部展示了对训练中从未显示的任务的泛化。有关更多定性示例,请参见附录。
Unseen的任务和数据集。我们展示了 Pascal 3D+上的关键点检测结果,使用阈值为 0.1 的正确关键点 (PCK) 度量的标准百分比进行评估。值得注意的是,LVM 在没有在这个数据集上训练的情况下实现了 81.2 的 PCK,展示了令人印象深刻的泛化能力。
这里进一步测试模型在没有见过的任务上的泛化性能。图10显示了一些运行良好的提示。图11显示了一些不容易用文字描述的提示—在这些任务类型中,lvm可能最终会胜过llm。
在图13中,我们展示了在非语言人类智商测试中发现的典型视觉推理问题的初步定性结果。眯着眼睛,我们可以想象LVM有一种潜在的能力,可以抓住抽象的视觉模式,并应用抓住的模式来推断所显示的视觉序列。这一令人兴奋的结果值得进一步研究。
失败案例: