据雅虎财经称,计算机视觉(CV)市场正在飙升,预计年增长率为 19.5%。到 2023 年,预计其价值将达到 1004 亿美元,而 2022 年为 169 亿美元。这一增长很大程度上归功于视觉基础模型 (VFM) 的开发,该模型旨在理解和处理视觉数据的复杂性。
VFM 在各种 CV 任务中表现出色,包括图像生成、对象检测、语义分割、文本到图像生成、医学成像等。它们的准确性、速度和效率使其在企业规模上非常有用。
本指南概述了 VFM,并讨论了几种可用的重要模型。我们将列出它们的优点和应用,并重点介绍 VFM 的突出微调技术。
基础模型是通用的大规模人工智能 (AI) 模型,组织用它来构建下游应用程序,特别是在生成式 AI 领域。例如,在自然语言处理 (NLP) 领域,BERT、GPT-3、GPT-4 和 MPT-30B 等大型语言模型 (LLM) 是基础模型,使企业能够构建定制的聊天或语言系统特定任务并能够理解人类语言以增强客户参与度。
视觉基础模型是执行图像生成任务的基础模型。 VFM 通常包含大型语言模型的组件,以便使用基于文本的输入提示生成图像。它们需要适当的即时工程来实现高质量的图像生成结果。专有和开源 VFM 的一些著名示例包括 Stable Diffusion、Florence、Pix-2-Pix、DALL-E 等。这些模型在巨大的数据集上进行训练,使它们能够理解视觉中复杂的特征、模式和表示。数据。他们使用专注于处理视觉信息的各种架构和技术,使它们能够适应许多用例。
传统上,计算机视觉模型使用卷积神经网络(CNN)来提取相关特征。 CNN 一次专注于图像的一部分,使它们能够在推理时有效地区分对象、边缘和纹理。
2017 年,一篇题为“Attention is All You Need”的研究论文通过引入一种新的机器学习架构来构建有效的语言模型,改变了 NLP 的格局。该架构采用文本序列并生成文本序列作为输入输出格式。其关键组件是注意力机制,它使模型能够专注于文本序列的基本部分。总体而言,Transformer 可以更好地理解较长的文本,并提供更高的速度和准确性。Transformer 架构催生了我们今天所知的基础 LLM。
尽管注意力机制最初是针对语言格式的,但研究人员很快就看到了它在计算机视觉应用中的潜力。 2020 年,一篇题为“An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”的研究论文展示了 Transformers 算法如何将图像转换为矢量化嵌入,并使用自注意力机制让模型理解图像片段之间的关系。生成的模型称为视觉变换器 (ViT)。
如今,ViT 被用来为许多 VFM 提供动力。此外,GPU 的日益普及使得处理视觉数据和执行大规模生成式 AI 工作负载变得更加容易。因此,不同VFM的开发和部署变得更加可行。
许多视觉基础模型使用自我监督技术来从未标记的数据中学习。与所有数据点都必须有标签的监督学习不同,自监督技术可以通过未标记的数据点进行模型训练。这使得企业能够快速调整它们以适应特定的用例,而不会产生高昂的数据注释成本。
基础模型正在取得显着进展,导致出现了各种旨在在不同视觉任务中表现出色的 VFM。让我们探讨一些最著名的 VFM。
DINO是Meta AI基于ViT和师生架构的自监督模型。它使用户能够快速分割图像中的任何对象,从而可以从图像中提取有价值的特征,而无需耗时的微调和数据增强过程。
与传统方法相比,SAM 需要最少的注释,从而彻底改变了图像和视频分割。 CV从业者可以给出一系列提示来提取不同的图像特征。提示采用可点击的形式,这意味着从业者可以选择任何图像的特定部分,SAM 会将其分割出来以便更快地注释。
SegGPT 是建立在 Painter 框架之上的通用分割模型,它允许模型使用最少的示例来适应各种任务。该模型适用于所有分割任务,例如实例、对象、语义和全景分割。在训练过程中,模型执行上下文着色,即使用随机着色方案(而不是特定颜色)通过学习上下文信息来识别片段,从而提高模型的通用性。
Microsoft 的 Visual ChatGPT 扩展了基于文本的 ChatGPT 的功能,将图像包含在内,使其能够执行各种任务,包括视觉问答 (VQA)、图像编辑和图像生成。该系统使用提示管理器,可以将语言和视觉用户查询输入到 ChatGPT 模型中。 Visual ChatGPT 可以访问其他 VFM(例如 BLIP、Stable Diffusion、Pix2Pix 和 ControlNet)来执行视觉任务。然后,提示管理器将所有输入的视觉信号转换为 ChatGPT 可以理解的语言格式。因此,ChatGPT 模型能够生成基于文本和图像的响应。
下图说明了 Visual ChatGPT 架构:
VFM 在各个行业都有广泛的应用。下面我们来探讨其中的一些:
VFM 可为各行业带来显着的经济效益。这些模型使用大量数据集进行细化和预训练,从而加快开发速度、使用更少的资源并提高人工智能驱动的应用程序的质量。
通过消除对耗时的手动特征工程和注释的需要,vfm可以缩短产品开发周期,允许组织减少其AI应用程序的上市时间。
vfm检测细微细节的能力可以通过实现精确的图像识别、自动识别物体和提出建议来改善用户体验。
vfm的迁移学习能力对企业人工智能系统尤其有益。通过迁移学习,企业可以对虚拟模型进行微调,以适应特定的任务,而无需从头开始训练整个模型。
虚拟财务模型具有强大的可视化理解能力,但仍是相对较新的模型,实践者在尝试使模型按预期运行时可能会遇到一些挑战。下面我们就来简要谈谈这些挑战。
虽然 VFM 是一种智能模型,但有时也会因其学习的数据而产生偏差。如果数据中包含代表性不足的类别,这就会成为一个令人担忧的问题。例如,安防系统中的 VFM 可能只有在看到特定人群时才会发出警报。出现这种结果的原因可能是训练数据中的人员代表性有偏差。为了防止模型得出有偏差的结果,公司必须确保数据集是从不同来源收集的,并能公平地代表所有类别。
可视化基础模型给数据安全带来了挑战,因为大型训练数据集可能会无意中暴露机密信息。通过强大的匿名化、加密和遵守 GDPR 等法规来保护数据至关重要。
为防止出现法律问题,必须遵守数据法规、知识产权和人工智能法规。在医疗保健和金融等行业,可解释的人工智能对于理解复杂的 VFM 预测至关重要。
虽然虚拟飞行器具有高速度和高性能,但根据数据和模型的规模,它们的训练成本也很高。例如,据报道,OpenAI 的 GPT-3 模型的训练成本为 460 万美元。根据 OpenAI 的另一份报告,到 2030 年,大型人工智能模型的培训成本预计将从 1 亿美元上升到 5 亿美元。这些数字表明,要创建大型图像模型,企业必须承担高昂的成本。他们必须在 GPU、服务器和数据管道等计算资源上投入巨资,这使得开发过程极具挑战性。此外,还必须考虑部署模型的推理成本。
虽然虚拟飞行器具有高速度和高性能,但根据数据和模型的规模,它们的训练成本也很高。例如,据报道,OpenAI 的 GPT-3 模型的训练成本为 460 万美元。根据 OpenAI 的另一份报告,到 2030 年,大型人工智能模型的培训成本预计将从 1 亿美元上升到 5 亿美元。这些数字表明,要创建大型图像模型,企业必须承担高昂的成本。他们必须在 GPU、服务器和数据管道等计算资源上投入巨资,这使得开发过程极具挑战性。此外,还必须考虑部署模型的推理成本。
VFM 是预先训练的模型,具有预定义的权重,这意味着它们能够理解复杂的视觉模式和特征。换句话说,企业无需从头开始训练。相反,他们可以使用少量额外的特定领域数据来快速调整模型的权重,并将其应用于独特的问题。
虽然使用预先训练的 VFM 可以加快模型开发和微调过程,但企业可能会面临数据限制,从而无法实现理想的模型性能。在微调 VFM 时,有几种技术可以克服数据障碍。
在人工智能和计算机视觉领域,VFM是未来。以下是我们可以期待在未来几年看到的一些令人兴奋的趋势:
架构进步: VFM 将通过更先进的架构设计和优化技术进行改进。例如,VFM中的自校正模块可以通过从反馈中学习来不断提高模型对人类意图的理解。
鲁棒性和可解释性: VFM将变得更加可解释,人类将能够在做出预测之前了解模型的思维方式。这种能力将大大有助于识别偏见和不足。
多模态集成: 通过多模态集成,VFM 将能够处理不同类型的信息,例如将图片与文字、声音或来自传感器的信息相结合。
例如,多模态对话模型 JARVIS 扩展了传统聊天机器人的功能。Microsoft Research 的 JARVIS 通过结合其他几个生成式 AI 模型来增强 ChatGPT 的能力,使其能够同时处理多种数据类型,例如文本、图像、视频和音频。用户可以向 JARVIS 提出复杂的视觉问题,例如对高度抽象的图像进行详细描述。
与其他人工智能领域的协同作用: VFM的发展与人工智能其他领域的发展密切相关,形成了一个联盟,扩大了它们的整体影响。例如,与 NLP 系统配合使用的 VFM 可以增强图片字幕和视觉问答等应用程序。
视觉基础模型是解锁通用人工智能 (AGI) 的有希望的一步。为了开发可应用于任何实际任务的算法,这些模型需要能够处理多模态数据,例如文本和图像。虽然 NLP 领域已经使用 LLM(例如 OpenAI 的 GPT-4)展示了 AGI 级别的性能,但由于解释视觉信号的复杂性,计算机视觉领域尚未实现类似的性能。然而,视觉基础模型的出现是朝着这个方向迈出的有希望的一步。
理想情况下,VFM将能够执行广泛的视觉语言任务,并准确地泛化到新的、看不见的环境中。或者,一个统一的平台可以合并不同的视觉基础模型来解决不同的视觉任务。SAM 和 SegGPT 等模型在解决多模态任务方面显示出前景。然而,要真正实现AGI,CV和NLP系统必须能够在全球范围内大规模运行。
“全知”项目展示了模型识别和理解这个世界上一切的能力。全视模型 (ASM) 在包含数百万张图像和语言提示的海量数据集上进行训练,使其能够使用统一的框架对许多语言和视觉任务进行泛化,同时保持高零样本性能。这些进步是朝着实现视觉语言通用智能迈出的一步。
以下是一些关键要点: