如果企业的数据尚未准备好,那么企业就还没有准备好应用生成式AI。最新研究预测,63个AI用例中每年可以带来2.6万亿至4.4万亿美元的经济效益。七项行动建议将数据用于推动生成式AI实施,以帮助企业实现其生成式AI的规模化价值,包括注重价值、构建数据架构能力、关注数据生命周期关键节点、保护敏感数据、培养数据工程人才、利用生成式人工智能管理数据以及严格跟踪和快速干预。对于CDO和创新领导者来说,这些行动将帮助从试验阶段迈向规模化应用,实现生成式AI的最大商业价值。
如果企业的数据还没有为生成式AI做好准备,那么企业也没有为生成式AI做好准备。
最新研究估计,生成式 AI 可以在 63 个业务场景用例中增加相当于 2.6 万亿至 4.4 万亿美元的年度经济效益。拉动每一个用例的机会,它将返回数据。企业的数据及其底座基础是生成式AI的决定性因素。
对于大多数首席数字官 (CDO) 来说,这是一个发人深省的命题,尤其是当 72% 的领先企业指出管理数据已经是阻止他们扩展 AI 用例的最大挑战之一时。当今的 CDO 和数据领导者面临的挑战是专注于能够使生成式 AI 为业务创造最大价值的变革。
情况仍在迅速变化,而且几乎没有确定的答案。但在我们与十几家客户就大型生成式 AI 项目进行的合作、与大公司约 25 名CDO的讨论以及我们自己重新配置数据以支持生成式 AI 解决方案的实验中,我们确定了CDO应该考虑的七项行动当他们从实验转向规模化时:
在确定生成式AI的数据策略时,CDO 可能会考虑引用约翰·F·肯尼迪总统的一句话:“不要问你的企业能用生成式AI做什么,而要问你的企业能为生成式AI做什么”。询问生成式AI可以为您的业务做些什么。”?关注价值是一项长期存在的原则,但 CDO 必须特别依赖它来平衡利用生成式AI“做某事”的压力。为了提供对价值的关注,CDO需要对企业生成AI的整体方法的数据影响有一个清晰的认识,这将在三个画像中发挥作用:
CDO 在支持 Shaper 方法方面发挥着最大的作用,因为 Maker 方法目前仅限于那些愿意进行重大投资的大企业,而 Taker 方法本质上是获取商品化的能力。推动 Shaper 方法的一项关键功能是传达交付特定用例所需的权衡,并突出显示最可行的方案。例如,虽然超个性化(hyperpersonalization)是一个很有前途的生成式AI用例,但它需要干净的客户数据、强大的数据保护护栏以及访问多个数据源的管道。CDO 还应该优先考虑能够为业务提供最广泛利益的计划,而不是简单地支持单个用例。
由于 CDO 帮助塑造企业的生成式人工智能方法,因此对价值采取广泛的看法非常重要。尽管生成式AI前景广阔,但它只是更广泛的数据组合的一部分(图表 1)。企业的大部分潜在价值来自传统人工智能、商业智能和机器学习 (ML)。如果 CDO 发现自己 90% 的时间都花在与生成式 AI 相关的计划上,那就是一个危险信号。
数据方面的巨大变化是,由于生成式AI能够处理非结构化数据(例如聊天记录、音频、视频和代码),价值范围变得更大。这是一个重大转变,因为数据组织传统上只能处理结构化数据,例如数据表中的数据。获取这一价值不需要重建数据架构,但想要超越基本接受者原型的 CDO 将需要关注两个明确的优先事项。
首先是修复数据架构的基础。虽然这听起来像是老新闻,但企业以前可能逃脱的系统漏洞将成为生成人工智能的大问题。如果没有强大的数据基础,生成式人工智能的许多优势将根本无法实现。为了确定要关注的数据架构元素,CDO 最好通过确定为最广泛的用例提供最大利益的修复来服务,例如个人身份信息 (PII) 的数据处理协议,因为任何特定于客户的生成式人工智能用例都需要该功能。
第二个优先事项是确定需要对数据架构进行哪些升级才能满足高价值用例的要求。这里的关键问题是如何经济有效地管理和扩展为生成人工智能用例提供动力的数据和信息集成。如果管理不当,则存在大量数据计算活动给系统带来过大压力的巨大风险,或者团队进行一次性集成的风险,这会增加复杂性和技术债务。企业的云配置使这些问题变得更加复杂,这意味着 CDO 必须与 IT 领导层密切合作,以确定计算、网络和服务使用成本。
一般来说,CDO 需要优先考虑数据架构的五个关键组件的实施,作为企业技术栈的一部分(图表 2):
数据质量一直是 CDO 的重要问题。但生成式AI型所依赖的数据规模和范围使得“垃圾进/垃圾出”的原则变得更加重要和昂贵,因为训练一个LLM可能要花费数百万美元。与传统机器学习模型相比,在生成式AI模型中查明数据质量问题要困难得多,原因之一是数据太多,而且其中大部分是非结构化的,因此很难使用现有的跟踪工具。
CDO 需要做两件事来确保数据质量:扩展其数据可观测性计划让生成AI应用程序更好地发现质量问题,例如为生成式AI应用程序中包含的非结构化内容设置最低阈值;并在整个数据生命周期中制定干预措施来解决团队发现的问题,主要在四个领域:
约 71% 的CDO认为生成式 AI 技术正在给企业的数据带来新的安全风险。关于生成式人工智能的安全性和风险已经有很多文章,但 CDO 需要考虑三个特定领域的数据影响:
随着企业越来越多地采用生成式AI,CDO将不得不关注对人才的影响。一些编码任务将由生成式 AI 工具完成——GitHub 上发布的 41% 的代码是由 AI 编写的。这需要对与生成式AI“副驾驶”一起工作进行专门的培训——麦肯锡最近的一项研究表明,与初级工程师相比,高级工程师与生成式AI副驾驶一起工作的效率更高。数据和AI学院需要纳入针对特定专业水平量身定制的生成式AI培训。
CDO 还需要清楚哪些技能最能支持生成式AI。公司需要能够集成数据集(例如编写将模型连接到数据源的 API)、序列化和组合提示设计、整理大量数据、应用LLM以及使用模型参数的人员。这意味着 CDO 应该更多地关注寻找数据工程师、架构师和后端工程师,而不仅雇佣数据科学家,他们的技能将变得越来越不重要,因为生成式AI允许技术能力不太先进的人使用自然语言来做事基本分析。
短期内,人才供给仍将短缺,预计人才缺口在不久的将来将进一步扩大,为 CDO 建立培训计划提供更多激励。
由于文章篇幅有限,完整请点击: