在 2023 年即将结束之际,我们会发现随着 ChatGPT 的引入,世界发生了不可逆转的变化。人工智能的主流化继续以强劲势头推进,我们如何应对这些不断变化的时代需要信念的飞跃。
在 2023 年即将结束之际,我们会发现随着 ChatGPT 的引入,世界发生了不可逆转的变化。人工智能的主流化继续以强劲势头推进,我们如何应对这些不断变化的时代需要信念的飞跃。人工智能可能同时具有潜在的变革性和不准确性!但我们的未来不仅仅是人工智能,因为我们仍然需要继续提高数据管理水平。
2024 年的数据与人工智能的趋势与管道和激活有关,特别是对于关注数据质量、平台架构和治理的人工智能而言。服务于多种信息角色的自主代理和任务助理可以部分或完全自动化所需的活动。此外,用于生成高质量数据集的工具可以在人工智能模型开发生命周期的各个阶段提供不断改进的模型。以下是 2024 年的四个主要趋势:
如今的数据平台很大程度上是一个“记录系统”堆栈,它将来自各种企业数据库和应用程序的数据汇集到一个公共存储库中。当前,该堆栈的主要用例是报告和分析,在极少数情况下是数据驱动的自动化。还有什么比在数据平台中注入智能来加速人工智能数据产品和应用程序在整个企业中的采用更好的呢?
我们将智能数据平台定义为大语言模型(LLM)基础设施是核心数据平台一部分的平台。该智能层可用于将智能注入两种应用程序:
下图显示了智能数据平台以及 AI 代理和应用程序的示意图。
智能数据平台是当前以仓库/湖为中心的数据平台环境的下一个演进。随着对简化消费界面的渴望,智能应用程序将推动未来十年的生产力。到 2024 年,企业需要认真审视当前的数据平台架构,并解决与数据孤岛、数据质量和重复以及堆栈组件碎片相关的挑战。高质量、精选的数据和元数据是生成式人工智能计划成功的关键。智能数据平台以及相关的数据应用程序将为人工智能用例支持提供基础数据和建模层基础设施。
“人工智能代理”一词在 2023 年下半年成为一个流行词。人工智能代理是一个程序或系统,可以感知其环境、推理、将给定任务分解为一组步骤、做出决策并采取行动。像人类一样自主地完成这些特定任务的行动。
语言理解的终极意味着人类可以通过自然语言界面与人工智能程序进行对话、指导和互动。但人工智能程序除了帮助和回答与信息任务相关的问题(例如搜索、提取或生成代码和/或图像)之外还能做更多的事情吗?
人工智能代理能否扩大当今需要更多人工干预的任务自动化领域以及需要高层次思考、推理和解决问题的认知任务?例如,执行市场分析、风险评估和投资组合优化等任务。或者,执行迄今为止由于复杂性或成本而不太可能自动化的复杂任务。当今人工智能代理/技术承担显着提高业务生产力和人机界面的任务的能力主要因为有经济价所值驱动。
早期的研究尝试围绕数学相关活动、思想链/图和基于LLM的多步骤推理框架来展示自动化复杂任务的能力。这些早期的预言远未达到构建完全自主的信息代理应用程序所需的目标,但它们展示了可能性的潜力。
下显示了一种架构,该架构提供了一种通用范式,该范式结合了推理和行动的进步以及围绕该范式的早期工作,例如“思想链”,以解决各种语言推理和决策任务。这种推理和行动与语言模型的耦合使这些程序能够执行决策任务。这种范式被称为“ReAct”。
人工智能代理可以协助数据任务的自动化,例如数据分析、BI 仪表板开发、流程优化、数据输入、调度或基本客户支持。他们还可以自动化整个工作流程,例如供应链优化和库存管理。下面描述人工智能代理所采取的步骤,使用户能够通过动态创建想法/计划并调整行动计划来动态执行推理任务,同时还可以与外部交互将附加信息合并到推理中。
人工智能信息代理是一种趋势,这可能会持续多年;预计 2024 年将在代理基础设施/工具以及早期采用方面取得重大进展。需要指出的是,我们如何理解当前人工智能架构承担更复杂任务的潜力,很大程度上仍然取决于潜力,而且还有很多未解决的问题。
尽管如此,企业必须以一种实用的方法来构建代理应用程序,并期望在某种程度上,与当前人工智能技术的差距将呈现出越来越复杂的自动化,而且这种差距可能会逐年缩小。它还必须考虑未来 12 个月内各个用例可能实现的自动化程度。此类项目的进化路径/旅程可能会通过此类努力取得更好的成功。
第三个趋势包括通过三种方法个性化或定制模型和/或其响应:
虽然像 OpenAI 的 GPT-4 这样的基础模型为企业提供了一个机会来原型化生成式 AI 模型用例的潜力,但它们并没有充分解决企业数据的隐私和安全性、所使用的可视化数据的开放性等问题训练此类模型的能力,针对特定要求对其进行微调的能力,实现任何给定任务所需的准确性以及总体成本价值主张。
为了超越原型和获得更好结果的需求,我们可能会看到定制或特定任务的小语言模型 (SLM) 的兴起,特别是在利基和垂直应用程序中。这些模型将利用基础/预训练基础模型作为训练 SLM 或使用领域/企业数据进行微调的起点。下图显示了模型微调的生命周期
简化定制 SLM 的开发、实现此类模型的生命周期管理并将其从实验到部署仍然是一项挑战:
微调模型所需任务的成功取决于仍不成熟的人工智能治理领域。人工智能治理是一种上升趋势,需要提供模型的可解释性,以建立信任并满足监管合规性。它还用于实时监控任何性能下降、负责任的使用、成本和产品可靠性问题的及时响应。
围绕 AI 模型开发、生命周期管理、部署和监控的工具可用性的兴起,解决上述挑战并简化模型开发和生命周期管理,是 SLM 和任务特定模型成功的关键。
请注意,特定任务的人工智能模型仍处于实验阶段,还有很多未解决的问题。这将导致大量此类实验可能会失败。尽管如此,这个主题在 2024 年整个生态系统的投资将会增加。
虽然使用数万亿个参数进行训练的模型(例如 OpenAI 的 GPT-4)增加了它们的知识库,但最近的实验表明,使用更好数据的更小模型可能能够超越 OpenAI 现在所说的非常大的 LLM 的“前沿模型”。 ”
通用模型和自定义模型的高质量数据集的可用性仍然是一个大问题,且不受隐私和版权的影响。大多数LLM预培训都是基于基于互联网的网络抓取数据集、书籍和一些源于学术界或研究的实验数据集。虽然可以为微调阶段获取一些数据集,但根据任务/领域,此类现成数据集的选择会进一步缩小。
通常,甚至没有足够的数据来训练模型。以欺诈为例。据推测,组织并没有充斥着猖獗的欺诈行为,因此对欺诈场景的了解有限。但他们需要使用广泛的欺诈可能性来训练模型。合成数据是提供高质量数据以提高LLM研究和开发速度的答案。
合成数据可以定义为不是直接从任何现实世界数据获得的数据,而是模仿现实世界数据的属性和特征而人为创建的数据。综合数据集可能是提供高质量数据的办法,以提高许多用例中的LLM研究和开发速度。
使用合成数据的主要优点之一是它可以保护最终用户的隐私,遵守版权问题,并使企业能够满足原始来源的隐私要求。也避免了信息的无意泄露,同时模型研发不断取得进展。合成数据对于满足训练大型语言模型不断增长的需求非常重要。通过正确的解决方案,可以以经济高效的方式解决大型语言模型所需的高质量数据,并为人工智能研究、模型开发和评估提供持续动力。有一些想法可以使用前沿模型本身生成合成数据集。尽管如此,很明显,创建和使用合成数据集有可能解决日益饥饿的模型对更多数据的需求。
我们知道,考虑到任务的性质,这样的生态系统/服务线在解决高质量数据集的需求方面发挥作用有很大的动力。如今,各种初创公司和服务提供商专门致力于围绕通用培训数据需求提供带注释的图像和文本数据。然而,有可能进一步扩展这些服务,以包含领域/任务特定数据集的需求,这一趋势可能会在 2024 年出现势头。
选择矢量数据库具有挑战性。有多种因素在起作用,包括可扩展性、延迟、成本、每秒查询次数等。传统数据库的主要用例是关键字查询与使用上下文搜索。大多数企业应用程序可能需要这两种功能。因此,我们的选择是在传统 DBMS 中引入矢量数据库功能。
大多数未来的企业人工智能应用程序都需要处理结构化和非结构化数据。管理多个数据库会导致效率低下、潜在的竞争条件、OLAP 数据与矢量数据库中的矢量索引之间的数据不一致以及导致数据不一致的管理开销。
因此,集成矢量数据库最适合需要最佳查询功能和语义搜索的应用程序。例如,矢量数据库不仅可以嵌入组织的财务报告,还可以对这些数据模型建立索引并将它们存储在同一数据库中,同时提供语义/相似性搜索功能。
许多 DBMS 和 Lakehouse 参与者正在将向量嵌入和搜索功能纳入其现有产品中。随着企业构建和部署 LLM 用例,具有语义搜索功能的集成数据库/湖屋可能会在 2024 年获得进一步的关注。
构建人工智能应用程序的最常见技术是检索增强生成(RAG),它结合了LLM和组织业务数据来提供对自然语言问题的响应。RAG 集成了一个流程,在调用 LLM 完成 API 之前,首先搜索矢量化数据的相似性,从而提高响应准确性。
我们看到两个影响 RAG 用例的趋势。其中之一与不断增加的 LLM 上下文大小有关,它可以直接获取输入数据,而无需通过数据库进行路由。这降低了执行额外且复杂的 RAG 步骤的需要。然而,这并没有减少对矢量数据库的需求,因为它们预先过滤了LLM的提示,这使得人工智能应用程序具有成本效益和高性能。他们还可以缓存提示及其响应,从而避免对 LLM 进行不必要且昂贵的 API 调用以进行重复查询。这些精选数据将来可用于微调组织的 SLM。
高管们要求他们的领导者快速跟踪人工智能项目,因为他们渴望从所有结构化和非结构化数据资产中提取前所未有的见解。然而,IT 领导者知道,将人工智能应用到底层数据基础设施绝非易事。他们知道人工智能应用程序的成功取决于确保数据质量、安全性、隐私和治理。因此,需要人工智能治理。但它到底是什么?
人工智能治理,就像数据治理一样,需要一个共同的定义。事实上,人工智能治理应该与数据治理齐头并进。
与传统人工智能相比,生成式人工智能的用户范围要广泛得多。此外, AI代理还引入了向量搜索、RAG和提示工程等新概念。因此,现代人工智能治理必须满足多种角色的需求,例如模型所有者和验证者、审计团队、数据工程师、数据科学家、MLOps 工程师、合规性、隐私和数据安全团队等。
在最高层面,人工智能治理需要跨两个层面应用
下图显示了人工智能治理计划的构建模块。
人工智能治理计划由四个构建模块组成:
模型正在快速激增,反映了该领域的动态和不断扩展的性质。到 2023 年底,Hugging Face 的模特数量已接近 50 万。问题是,当这些出现在您的人工智能框架(如 Google Cloud 的 Vertex Model Garden 或 AWS Bedrock)中时,开发人员将开始使用其中的一些,无论是否经过风险管理和合规团队的批准。为了克服这个问题,许多人开始采用模型目录。
在这里,目录的目的是发现正在使用的模型、它们的版本号和批准状态。它还记录了模型的所有者、其目的和用途。对于批准的模型,目录将显示用于训练模型的数据集、模型的评估方式及其公平性评分。风险记分卡捕获模型的漏洞及其影响,并应定期审查以确保风险在阈值内。
理想情况下,模型目录应该是数据目录的扩展,这样就不存在数据和人工智能治理的碎片。
在模型消费中,人工智能治理的重点是将业务用例映射到批准的模型并识别数据安全风险。人工智能治理的这一部分处理对企业数据的不安全使用、提示注入和数据丢失的担忧。
它还负责跟踪整个模型生命周期谱系,包括法律、CISO、CDO、审计师等的批准,一直到模型退役。控制到位后,它可以加快模型部署到生产中的速度。
治理工具不仅应该允许识别偏见、危害、泄露、知识产权侵权等领域的风险,还应该记录风险缓解策略。人工智能治理工具应该有助于提供模型的可解释性。
一旦部署了批准的模型,他们需要有一种机制来跟踪它们的大规模表现,并自动扫描响应中是否存在幻觉和其他不安全内容。人工智能模型的最大问题之一是它们的不确定性反应可能会导致幻觉。因此,监测准确性和相关性非常关键。随着更多人工智能模型在 2024 年投入生产,跟踪其性能和成本将变得至关重要。
需要不断监控上述风险领域是否存在无法解释的变化和异常。在检测到异常情况时,应智能地发出警报和通知,而不会造成“警报疲劳”。
尽管数据安全和隐私任务贯穿人工智能治理的每个部分,但监控用户、他们的权利和相关的安全策略是一个重要组成部分。
模型记分卡、推理/使用监控数据集和仪表板以及工作流程自动化对于维持人工智能应用程序的健康以及及时采取补救措施以应对预期性能的任何下降至关重要。自动化工作流程可以帮助创建数据和模型推理 KPI,并根据需要触发警报,以确保模型所有者可以启动补救措施。
该工具应提供事件管理功能来记录解决事件所采取的步骤。最后,工作流程应允许评估遵守相关的人工智能法规,例如NIST 人工智能风险管理框架。
人工智能治理是任何人工智能计划取得成功的基础。我们预计 2024 年传统数据目录公司等多个供应商以及 IBM等大型平台提供商将主要关注人工智能治理。Databricks 的 Unity Catalog 已经将数据目录与 AI 模型元数据融合在一起。
2023 年最后几天发布的几项新法规和标准进一步加速了这一重点。从欧盟人工智能法案到ISO 42001?,再到 OpenAI 的准备框架,它们都旨在促进负责任地使用人工智能。例如,OpenAI 框架有四个目标——“跟踪、评估、预测和保护”模型风险。??