? ? ? ?本文研究了一种基于一般类型的模型(我们称之为基础模型)构建人工智能(AI)系统的新范式基础模型是在广泛的数据(通常使用大规模的自我监督)上训练的任何模型,可以适应(例如,微调)到广泛的下游任务;目前的例子包括BERT [Devlin et al. 2019]、GPT-3 [Brown et al. 2020]和CLIP [Radford et al. 2021]。从技术的角度来看,基础模型并不新鲜——它们是基于深度神经网络和自我监督学习的,这两者都已经存在了几十年。然而,从过去几年的基础模型的纯粹规模和范围拓展了我们的想象力,什么是可能的;例如,GPT-3有1750亿个参数,可以通过自然语言提示进行调整,在广泛的任务中完成一项可通过的工作,尽管没有被明确训练来完成许多任务[Brown等人,2020]。与此同时,现有的基础模型有可能会加重危害,而且它们的特征通常都不为人所知。考虑到它们即将广泛部署,它们已经成为严格审查的话题[Bender等人,2021年]。
? ? ? ?基础模型的意义可以概括为两个词:涌现和同质化。涌现意味着系统的行为是隐性诱发的,而不是明确构建的;它既是科学兴奋的来源,也是对意外后果的焦虑的来源。同质化表明构建机器学习系统的方法在广泛的应用中得到了整合;它为许多任务提供了强大的杠杆作用,但也会产生单点故障。为了更好地理解涌现和同质化,让我们回顾一下过去30年来它们在人工智能研究中的崛起。
? ? ? ?机器学习。如今,大多数人工智能系统都是由机器学习驱动的 模型以历史数据为基础进行训练,并用于对未来进行预测。机器的兴起 人工智能内部学习始于20世纪90年代,代表着人工智能系统方式的显著转变 之前构建的:学习算法会诱发,而不是具体说明如何解决任务 它基于数据——也就是说,如何从动态学习中产生。机器学习也代表了向同质化迈进的一步:现在,广泛的应用程序可以由单一的通用学习算法(如逻辑回归)提供动力。尽管机器学习在人工智能中无处不在,但在自然语言处理(NLP)和计算机视觉中,语义复杂的任务,如问题回答或物体识别(输入是句子或图像),仍然需要领域专家执行“特征工程”-也就是说,编写特定领域的逻辑来将原始数据转换为更适合于流行机器学习方法的更高层次的特征(例如,计算机视觉中的SIFT [Lowe 1999])。
? ? ? ?深度学习。大约在2010年,以深度学习为名的深度神经网络(LeCun et al. 2015)开始在机器学习领域获得关注。更大的数据集、更多的计算能力(尤其是gpu的可用性)和更大的胆识为深度学习提供了动力。深度神经网络将在原始输入(例如,像素)上进行训练,更高层次的特征将通过训练产生(这个过程被称为“表示学习”)。这导致了在标准基准上的巨大性能提升,例如,AlexNet [Krizhevsky等人,2012]在ImageNet数据集上的开创性工作[Deng等人,2009]。深度学习也反映了向同质化的进一步转变:相同的深度神经网络架构可以用于许多应用,而不是为每个应用定制特征工程管道。
? ? ? ?基础模型。基础模型在NLP中已经形成,所以我们暂时把重点放在这里。也就是说,就像深度学习在计算机视觉中普及但存在于它之外一样,我们将基础模型理解为人工智能的一般范式,而不是以任何方式特定于NLP。2018年底,NLP领域即将经历另一场巨变,标志着基础模型时代的开始。在技术层面上,基础模型是通过迁移学习[Thrun 1998]和规模实现的。迁移学习的思想是将从一个任务(如图像中的物体识别)中学习到的“知识”应用到另一个任务(如视频中的活动识别)中。在深度学习中,预训练是迁移学习的主要方法:在替代任务上训练模型(通常只是作为达到目的的一种手段),然后通过微调适应感兴趣的下游任务。迁移学习使基础模型成为可能,但规模使它们强大。规模需要三个要素:
(1)计算机硬件的改进——例如,GPU吞吐量和内存在过去四年里增加了10倍(§4.5:系统);
(ii) Transformer模型架构的开发[Vaswani等人,2017],该架构利用硬件的并行性来训练比以前更具表现力的模型(§4.1:建模);
(iii)更多训练数据的可用性。
? ? ? ?获得数据和利用数据的能力的重要性是不能低估的。使用带注释的数据集进行迁移学习已经是十多年来的常见实践,例如,在计算机视觉领域,对ImageNet数据集进行预处理训练[Deng等人,2009]用于图像分类。然而,标注的高昂成本对预训练的好处施加了实际的限制。
? ? ? ? 另一方面,在自监督学习中,训练前任务是由未标注的数据自动生成的例如,用于训练BERT [Devlin et al. 2019]的掩蔽的语言建模任务是根据上下文预测句子中缺失的单词(例如,我喜欢豆芽)。自我监督任务不仅具有更强的可伸缩性(仅依赖于未标记的数据),而且它们被设计成迫使模型预测输入的部分内容,这使得它们比在更有限的标记空间中训练的模型更丰富、更有用。
? ? ? ? 自单词嵌入以来,自我监督学习已经取得了相当大的进展[Turian等人,2010;Mikolov等人,2013年;Pennington et al. 2014]将每个单词与上下文无关的向量相关联,为广泛的NLP模型提供了基础。此后不久,基于自回归语言模型的自监督学习(给出之前的单词,预测下一个单词)[Dai and Le 2015]开始流行起来。这产生了在上下文中表示单词的模型,如GPT [Radford et al. 2018]、ELMo [Peters et al. 2018]和ULMFiT [Howard and Ruder 2018]
? ? ? ?自我监督学习的下一波发展- BERT [Devlin et al. 2019] GPT-2 [Radford et al. 2019], RoBERTa [Liu et al. 2019], T5 [rafael et al. 2019], BART [Lewis et al. 2020a] -很快就采用了Transformer架构,整合了更强大的深层双向句子编码器,并扩展到更大的模型和数据集。
? ? ? ?虽然我们可以纯粹从自我监督学习的角度来看待这最后一波技术发展,但在BERT的引入过程中出现了一个社会学拐点。在2019年之前,使用语言模型的自我监督学习本质上是自然语言处理的一个子领域,它与自然语言处理的其他发展并行发展。2019年以后,使用语言模型的自我监督学习更像是NLP的基础,因为使用BERT已经成为常态。接受单一模型可以用于如此广泛的任务标志着基础模型时代的开始。
? ? ? ?基础模型导致了前所未有的同质化水平:几乎所有最新的NLP模型都改编自少数几个基础模型之一,如BERT、RoBERTa、BART、T5等。虽然这种同质化产生了极高的杠杆作用(任何对基础模型的改进都可以为NLP带来直接的利益),但它也是一种负担;所有的人工智能系统都可能继承一些基础模型的相同问题偏差[Bolukbasi等人,2016;Caliskan等人2017年;Abid等人,2021,除其他外])-参见§5.1:公平,§5.6:伦理,供进一步讨论。
? ? ? ?我们也开始看到研究界的同质化。例如,类似的基于transformer的序列建模方法现在应用于文本[Devlin等人。2019;Radford等人2019年;rafael et al. 2019],图像[Dosovitskiy et al. 2020;Chen et al. 2020d]、speech [Liu et al. 2020d]、table data [Yin et al. 2020]、protein sequences [Rives et al. 2021]、organic molecules [Rothchild et al. 2021]、reinforcement learning [Chen et al. 2021b;Janner等人,2021]。这些例子表明,在未来,我们有一套统一的工具,用于在各种各样的模式中开发基础模型[Tamkin等人,2021b]。除了方法的同质化外,我们还看到研究团体以多模态模型的形式对实际模型的同质化——例如,基于语言和视觉数据训练的基础模型[Luo等人,2020;Kim等人,2021a;Cho等人,2021年;Ramesh等人,2021年;Radford等,2021]。在某些领域,数据自然是多模态的。、医疗图像、结构化数据、医疗保健中的临床文本(§3.1:医疗保健)。因此,多模态基础模型是融合关于一个领域的所有相关信息的自然方式,并适应也跨越多个模态的任务。
? ? ? ?基础模型也导致了惊人的出现,这是规模的结果。例如,GPT-3 [Brown et al. 2020],与GPT-2的15亿个参数相比,有1750亿个参数,允许上下文学习,在这种学习中,语言模型可以通过简单地提供一个提示(任务的自然语言描述)来适应下游任务,一个突如其来的特性,既没有经过专门训练,也没有预料到它会出现。
? ? ? ?同质化和涌现以一种潜在的令人不安的方式相互作用。同质化可能会为许多任务特定数据非常有限的领域提供巨大的收益——请看几个这样的领域所呈现的机会(例如,§3.1:医疗保健,§3.2:法律,§3.3:教育);另一方面,模型中的任何缺陷都被所有适应的模型盲目地继承(§5.1:公平,§5.6:伦理)。由于基础模型的力量来自于其涌现的特性,而不是其明确的构建,现有的基础模型很难理解(§4.4:评价,§4.10:理论,§4.11:可解释性),并且它们有意外的失效模式(§4.7:安全性,§4.8:稳健性)。由于基础模型的出现会对其能力和缺陷产生很大的不确定性,因此通过这些模型进行积极的同质化是有风险的。从伦理(5.6:伦理)和人工智能安全(4.9:人工智能-安全)的角度来看,去风险是进一步发展基础模型的核心挑战。
? ? ? ?命名:我们引入术语基础模型来填补描述我们正在见证的范式转变的空白;我们将简要叙述我们做出这一决定的一些理由。现有的术语(例如,预训练模型、自我监督模型)部分地捕捉了这些模型的技术维度,但未能以一种易于理解的方式捕捉范式转变的重要性,对于机器学习以外的领域来说。特别是,基础模型指定了在社会学影响方面与众不同的模型类,以及它们如何给人工智能研究和部署带来广泛转变。相比之下,在技术上预示了基础模型的预训练和自我监督的形式未能阐明我们希望强调的实践中的转变。
? ? ? ?此外,尽管在撰写本文时,许多标志性的基础模型都是语言模型,但术语语言模型对于我们的目的来说太过狭窄:正如我们所描述的,基础模型的范围远远超出了语言。我们还考虑了一些术语,如通用模型和多用途模型,它们捕获了这些模型可以服务于多个下游任务的重要方面,但都未能捕获它们未完成的特性和适应的需要。诸如任务无关模型之类的术语可以捕获训练的方式,但不能捕获对下游应用程序的重要含义。
? ? ? ?我们选择了新的术语基础模型,以确定作为本报告主题的模型和新兴范式。特别是,“基础”一词指定了这些模型所扮演的角色:基础模型本身是不完整的,但它作为公共基础,许多特定于任务的模型都是通过适应建立起来的。我们还选择了“基础”这个词来表示建筑稳定性、安全性和安全性的重要性:构造不良的基础是造成灾难的原因,而执行良好的基础则是未来应用的可靠基石。目前,我们强调,我们不完全了解基础模型提供的基础的性质或质量;我们无法判断这个基础是否值得信赖。因此,这对于研究人员、基础模型提供者、依赖于基金会模型的应用程序开发人员、政策制定者和整个社会来说都是一个关键的问题。