不断增长的人工智能数据集对数据工程和管理意味着什么

发布时间:2024年01月21日

从 2000 年代初的聊天机器人到最新的 GPT-4 模型,生成式 AI继续渗透到科技行业内外工人的生活中。随着微软、谷歌和亚马逊等巨头为其人工智能解决方案的研发投入数百万美元,人工智能技术的全球采用率在 2017 年至 2022 年间增加了一倍以上也就不足为奇了。

那么,过去五年的人工智能发展到底发生了哪些变化呢?从工程角度来看,人工智能的进步通常分为三类:

1. 模型:我们看到的最明显的变化是 Transformer 模型的开发,以及随后的 GPT-3 和 GPT-4 等大型模型的演变。使用并行化和 Transformer 模型的注意力机制可以克服训练自然语言处理(NLP) 模型的可扩展性限制,该模型考虑上下文并对输入序列的不同部分进行优先级排序。

2. 管理工具:数据工程领域已经发展到可以考虑快速扩展的数据集和先??进的强化学习算法。也就是说,正在利用更复杂的数据管道来收集、清理和利用数据。我们还看到自动化机器学习(autoML) 工具的出现,这些工具可以自动化模型开发的多个方面,包括特征选择、超参数调整和机器学习操作(MLOps)的概念。MLOps 引入了更好的模型监控、管理和版本控制解决方案,以促进已部署模型的持续改进。

3. 计算和存储:正如您所料,更先进的模型和工具需要增强的硬件来加速数据处理,包括 GPU 和 TPU。当然,数据需要存放在某个地方,因此增强的数据存储解决方案正在出现,以处理和分析大量数据。

有了比以往更多的可用训练数据,人工智能和机器学习应该 比以往更加有效。那么,为什么数据工程师和决策者仍在为数据质量和模型性能而苦苦挣扎呢?

从数据稀缺到丰富

最初,人工智能开发的主要挑战是数据的稀缺。充足、相关且多样化的数据很难获得,人工智能的发展往往受到这些限制的阻碍。

在过去五年中,开放数据计划和自动化数据收集猛增。除其他外,这些为人工智能创造了大量可用数据,从而将以前的限制转变为大量的悖论。用于解决数据差距的开源信息和人工智能增强数据集给工程师带来了独特的、意想不到的挑战。虽然大量数据的可用性对于推进生成式人工智能至关重要,但它同时也带来了一系列不可预见的问题和复杂性。

更多数据,更多问题?

大量可用数据不再纯粹是有益的,事实上,可能不再是改进人工智能的最佳方式。大型数据集本质上包含大量数据,通常从 TB 到 PB 甚至更多。管理、存储和处理如此大量的数据需要复杂的工程解决方案,例如分布式计算系统、可扩展的存储解决方案和高效的数据处理框架。

除了数据量之外,工程师还经常面临数据集生成、处理和分析的高速问题。大型数据集(包括嵌套结构、高维度和复杂关系)的速度加快和复杂性需要复杂的数据建模、转换和分析技术。

大型数据集的挑战

毫不奇怪,这种近乎不可能的平衡行为给工程师带来了无数问题。技术高管广泛报告了随着数据集增长而出现的以下挑战:?

1. 信息过载:数据量之大可能令人难以承受。对于大型数据集,识别相关或有价值的信息很快就会变得具有挑战性。这个问题会一直蔓延下去,不相关或模糊的数据会导致难以提取有意义的见解。

2. 复杂性增加:更多的数据通常意味着处理复杂的高维数据集,需要复杂的(计算密集型的)开发和优化。

3. 质量下降:当大型数据集引入歧义或复杂性时,模型往往会通过过度拟合来进行补偿。当模型对训练数据(包括其噪声和异常值)学习得太好时,就会发生过度拟合,以至于不再为未见过的数据生成准确的结果。从本质上讲,模型开始记忆而不是学习,因此很难确保数据质量和准确性。

4. 新的资源限制:尽管人工智能领域的计算取得了进步,但公司在训练模型时仍然面临资源限制。更长的训练时间需要足够的处理能力和存储,这给开发人员和研究人员带来了后勤和财务挑战。也许不那么明显的是,人工智能的进步也带来了以人为本的挑战,包括能够管理大数据和人工智能系统的专业人员的技能差距日益扩大。?

大型数据集的数量、速度、多样性和复杂性需要先进的数据工程解决方案。当与资源限制争夺质量时,数据管理是确保有效、高效和安全的数据模型的唯一方法。

重新思考人工智能训练的数据集

现在,大型训练数据集比以往任何时候都更需要先进的数据工程解决方案。正确的数据管理可以解决许多数据质量问题,从不一致到模型性能。

但是,如果管理大型数据集的最佳方法是缩小它们呢?目前,在开发大型语言模型(LLM) 时,人们正在采取利用较小数据集的举措,以促进更好的特征表示并增强模型泛化。精心策划的较小数据集可以更清晰地表示相关特征,减少噪声,从而提高模型准确性。当以这种方式强调代表性特征时,模型也往往能更好地概括。

较小的数据集在正则化中也发挥着至关重要的作用,正则化是一种用于防止机器学习模型过度拟合的技术,使模型能够更好地泛化到未见过的数据。话虽这么说,较小的数据集会带来较高的过度拟合风险,尤其是对于复杂的模型。因此,正则化对于确保模型不会过于紧密地拟合训练数据并能够很好地推广到新数据变得至关重要。

正如您所料,对于较小的数据集,数据准确性更为重要。除了规范化和平衡数据之外,工程师还必须确保充分的模型验证,并经常选择重新审视模型本身。修剪决策树、在神经网络中使用dropout 以及交叉验证等技术都可以用来更好地概括数据。但归根结底,训练数据的质量仍然会决定你的结果。

将重点转向策展和管理

工程经理和领导层现在应该将重点转向整理和管理数据集,以最大限度地提高数据多样性和相关性,并最大限度地减少噪音。管理良好的数据集不仅有助于更好的模型训练,还可以通过允许研究人员和开发人员探索新模型和技术来促进创新。能够有效管理数据并确保其质量的公司可以通过开发卓越的人工智能模型来获得竞争优势。这些模型不仅可以提高客户满意度,还可以支持执行层更好的决策流程。

充足的悖论提出了如此多的可用信息所带来的固有风险和挑战。生成式人工智能正在将重点转向管理和处理。因此,我们转向全面的可观察性和分析解决方案。借助正确的工具,数据工程师和决策者可以开发更有意义的模型,无论他们使用的数据集有多大。

文章来源:https://blog.csdn.net/qq_29607687/article/details/135638768
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。