AI安全性的探讨

发布时间：2023年12月18日

简述：

? ? ? ?当考虑到基础模型在现实世界中的潜在应用时，确保基础模型是可靠的、健壮的和可解释的变得越来越重要。除了关键的和直接的考虑之外，我们还考虑了基础模型和更大规模的风险、危险和危害之间的关系，随着模型能力的继续发展，这些风险、危害有可能增加相关性。例如，我们考虑了对齐基础模型的重要性，这样它们就不会被错误指定的目标或价值所部署。我们还讨论了预测基础模型的突发行为(例如，欺骗或战略计划的能力)的相关性，这可能会使使它们适应特定任务的尝试复杂化，并且可能需要新的可解释性或评价的方法。

? ? ? ?人工智能(AI)安全领域关注的是潜在的事故、危害和先进AI模型的风险，特别是对社区或社会的大规模风险。目前的基础模型可能远没有带来这样的风险;然而，它们的能力和潜在应用的广度是惊人的，并且与以前的ML范式有明显的转变。虽然人工智能安全在人工智能研究中一直占据着较为边缘的地位，但目前向基础模型及其相应的通用性的转变，为人工智能安全研究人员提供了一个机会，以新的视角重新审视该领域的核心问题，并重新评估其近期或近期的相关性。

1. AI安全的传统问题

? ? ? ?人工智能安全研究的一个主要分支关注先进人工智能系统的影响，包括那些可能在广泛的认知任务中达到或超过人类表现的人工智能系统.在这种背景下，安全研究的中心目标是减轻先进AI发展所带来的大规模风险。这些风险可能比§5.2:误用、§4.8:稳健性和§4.7:安全性中考虑的风险更具有投机性。然而，它们的规模要大得多，至少在原则上可能来自未来的高能力系统。特别值得关注的是全球灾难性风险:大致来说，这些风险是全球性的或跨代的，在范围内造成死亡或显著减少受影响者的福利(如核战争或快速生态崩溃)[Bostrom和Cirkovic, 2011]。因此，人工智能安全研究相当于一系列项目，这些项目旨在描述先进人工智能发展所带来的(如果有的话)灾难性风险，并开发可行的技术解决方案来降低这些风险的概率或严重性。从人工智能安全的角度来看，最好的情况是控制问题的解决方案:如何开发一个先进的人工智能系统，使我们能够获得该系统的计算优势，同时留给我们足够的控制，这样系统的部署不会导致全球灾难[Bostrom和Cirkovic 2011]。然而，技术解决方案并不足以确保安全:确保安全的算法实际上是那些实现到真实世界的系统，而不安全的系统没有部署可能需要额外的社会技术措施和机构。

? ? ? ?强化学习(Reinforcement Learning, RL)研究的是对奖励进行优化的决策主体，在过去十年里一直是人工智能安全领域的主要焦点。这里的问题是，在不构成全球灾难性威胁的最低程度上，为符合人类价值观的人工智能指定和实例化奖励功能的难度。而这个问题，被称为价值对齐，乍一看似乎微不足道，但人类的价值观是多样的，无定形的，难以定量地把握。因此，一个突出的问题是奖励黑客，即AI发现了一个不可预见的政策，该政策可以最大化人类福祉的代理奖励，但其错误的配置导致了重大的伤害。许多解决价值校准问题的努力都集中在可修正性的最大化上，即当系统运行时，可以纠正系统设计中的错误。这可能远不是直接的——在RL环境中，具有特定目标的代理将被激励去禁止改变目标的尝试，因为任何改变目标的尝试都可能对目标的实现不是最理想的。

? ? ? ?然而，纯RL并不是实现先进人工智能的唯一理论途径。基础模型也可以用简单的(自我)监督的目标(如下一个令牌预测)进行训练，但仍然可以以交互式和目标导向的方式使用，有或没有额外的RL训练。此外，许多这些方法可能会通过直接缩放计算、参数数量和数据集大小来提高能力[Hestness等人，2017;Kaplan等人，2020]。在更广泛的基础模型背景下，价值对齐和可修正性等概念在几个方面与纯RL情况不同，因此必须谨慎地理论化。

2.目前的基础模型和人工智能安全

? ? ? ? RL设置中的许多风险都来自于为实现目标而优化的模型。然而，在最近的基础模型上，人工智能安全研究的一个关键挑战是，尽管没有明确优化，但目标导向的行为可能会出现。例如，大型语言模型可以在语料库上进行训练，在语料库中，代理以目标导向的方式使用语言，例如在说服性文本中。为了很好地预测下一个词元，模型可以获得推理和产生争论的一般能力，这可以在适当的上下文中出现。在其他类型的人类数据上训练的基础模型可能捕获数据中存在的其他类型的目标导向行为;例如，在视频中训练模仿人类的机器人特工，如果他们的训练数据包括拳击比赛的视频，可能会试图击打或击倒他们的人类操作员。最近的工作也试图直接训练代理人产生目标导向的行为;例如，决策转换器在带有回报的轨迹上训练序列模型。然后，我们可以通过用高回报“提示”这个模型来生成高回报轨迹，这就引发了RL环境中类似的奖励黑客问题。

? ? ? ?然而，目标导向模型的安全研究的一个主要目的是对agent所追求的行为获得更有原则的控制和可解释性，而不是依赖于来自黑盒子神经网络的不可思议的决定。这使得当前的基础模型成为人工智能安全研究的一个令人兴奋的研究途径，因为对齐它们可能是对齐更先进的模型的一个有用的先驱[Christiano 2016;Cotra 2021;Kenton等人，2021]。一个挑战是基础模型的训练目标和期望的行为之间的不一致;例如，一个语言模型可以被训练来预测训练语料库中所有文档的下一个单词，而不考虑准确性，但用户可能希望模型只输出真实或有帮助的文本[Tamkin等人。2021a]。将目标导向的代理引导到预期行为的一个可能的方法是用行为的自然语言描述来训练他们这可能使他们能够用语言来指导他们，并使他们能够输出描述他们“相信”他们正在执行的任务的可解释性语言，类似于可控生成和源归因的方法。然而，为了确保这些模型在野外的可靠性和自一致性，以及获得对这些模型如何运行的更机械的理解，还需要进一步的进展。而且，即使基于自然语言的未来基础模型控制能够更好地规范任务和监控，模型也可能从人类数据中获得欺骗性或其他不良行为——识别和中和这种行为是未来研究的另一个重要方向。

? ? ? ?虽然前段中描述的自我监督目标训练模型在数据中捕捉人类行为，但新的训练范式可能产生目标导向的基础模型，能够在复杂环境中执行广泛的任务，并在不同领域显示出优于人类的能力(见。例如，目标导向的基础模型可以在类似AlphaGo的开放式自玩环境中训练，也可以在大型多任务单代理RL环境中训练。这可能会导致紧急能力的产生，使特工执行目标的努力复杂化，特别是如果许多特工在一个丰富的世界模拟器中一起接受训练，这鼓励了诸如欺骗、误导、伪装、说服和战略规划等技能的发展。除了打击欺骗行为外，如何有效地评估和控制功能非常强大的模型的行为仍不清楚，这被称为可扩展的监督或对齐[Amodei等人。2016;Leike等，2018];例如，对化学基础模型提出的新反应进行评分。因此，用于训练、控制、监控和理解这些模型的新型“人在循环方法”是令人兴奋的未来方向。

? ? ? ?最后，即使在这些更先进的能力出现之前，近期人工智能安全的一个重要研究领域是对当前自我监督基础模型的能力进行表征和预测。这有三个方面的挑战。首先，基础模型的通用性意味着它们可以以意想不到的方式应用于无数不同类型的应用程序。枚举当前和计划中的基础模型的应用程序不足以捕捉它们可以被使用的全部范围。第二，即使是在一个特定的应用程序中，模型功能也是意外的:随着模型的扩展，它们以意想不到的方式增长和变化。例如，通过“提示”控制GPT-3的能力是一种新兴现象，在较小的GPT-2模型中，只有最基本的迹象是明显的[Radford等人，2019;Brown等人，2020]。未来的基础模型的涌现特性将会是什么样子还不清楚。第三，即使在特定的应用程序和规模内，模型的功能也不容易描述。例如，一旦在输入中添加逗号，GPT-3执行添加的能力就会显著提高[Branwen 2020;Brockman 2020]。类似地，对提示符进行少量的重写会对任务性能产生很大的影响。由于提示符的空间难以枚举，因此明确断言当前基于提示符的基础模型无法处理任何任务是很有挑战性的——这是从基础模型推断可能的灾难性风险的主要挑战。

3.未来基础模型的潜在灾难性风险

? ? ? ?当前模型广泛且快速增长的能力表明，尝试描述更先进系统可能带来的灾难性风险是有益的。我们看到，先进的基础模型至少有两种方式可以促成这样的结果。

? ? ? ? （1）灾难性的健壮性失败。稳健性讨论了当面对新的数据类型时，模型可能会以意想不到的或有害的方式表现出来。如果将基础模型集成到重要的系统中，利用基础模型的能力快速适应许多不同的任务和情况，这些失败可能会特别严重。如果它们发生在战争系统(导致不必要的武器发射，可能引发冲突)、关键基础设施(意外破坏关键能源或农业能力)、或者，如果它们对很大一部分经济活动至关重要(其意外失败可能导致生活水平突然下降和政治不稳定)。事实上，与其他类型的人工智能相比，灾难性鲁棒性失效的威胁对基础模型尤其重要。这是因为一个基础模型由一个单一的模型组成，这个模型可以适应许多不同的用例，这样，从模型学到的统计关联中获得的鲁棒性失败，原则上可以在几个不同的领域中以相关的方式表现出来。如果将相同的基础模型集成到多个关键功能中，那么模型中缺乏鲁棒性可能会导致跨多个关键功能或故障保险的相关失效。

? ? ? ?（2）不明确的目标。使用基础模型可能会增加优化未对齐但易于指定的目标的风险，通常被称为古德哈特定律[Kenton等人，2021;古德哈特，1984]。当前这些风险的一个例子是一些推荐系统(如极化、媒体成瘾)的负面影响，它们可能优化简单的用户粘性指标，而不是更难衡量的社会和消费者福祉组合[Burr等人2018;Milano等，2020]。未来的机构可能会利用不可解释的基础模型来最大化简单的度量，如利润或GDP，因为这些模型有能力适应这些度量所依赖的许多不同的子问题。然而，在更大的范围内，优化这些代理指标，而不是为人类福利设计的更全面的目标，可能会无意中导致环境或地缘政治危害[Gabriel 2020;Creel和Hellman 2021]。

4. 结论

? ? ? ?综上所述，我们认为基础模型当前和未来潜在的涌现特性使其成为人工智能安全领域成熟的研究对象。我们鼓励未来在描述和预测基础模型的确切能力和风险方面的工作;开发新的方法，使基础模型与人类价值和预期目标相一致;各研究实验室和企业应协调采取积极措施，以减轻突出风险。

文章来源:https://blog.csdn.net/xw555666/article/details/135068058
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！