如果过去几年,您读过科技主题的文章,您可能会遇到一些新词汇,如人工智能(Artificial Intelligence)、机器学习(Machine Learning)和深度学习(Deep Learning)等。这三个词的使用频率很高,几乎无处不在,但是他们具体都是什么?有什么不同之处?他们之间的关系是什么?
本文将详细解释人工智能,机器学习和深度学习的概念,并说明他们之间的关系。此外,本文还将介绍一些构建这些技术的最佳实践,以及在公司中实施这些技术的注意事项。
谈论AI、ML和深度学习之间区别的最佳切入点是,将这三者视为一个梯度,每一个都是前一项的一部分。人工智能(AI)属于概括性术语,包含机器学习在内,而深度学习又是机器学习的一种类型。
现在,您已经基本了解三者的关系。接下来,让我们进行深入探讨。
人工智能(Artificial Intelligence)是一个概括性术语,包含多种技术。简单地说,AI是指一种能够模仿或体现人类智能特征的机器。几十年来,AI一直是一个热门理论,也是电影和科幻小说中的部分情节。
而今,AI已经被使用在我们身边。各行各业都在使用AI来自动化、预测、优化一些原本由人类完成的任务。这不仅能为企业节省金钱和时间,还可以将员工从重复枯燥的任务中解放出来,提高员工幸福感。
AI分为三大类型:
第一种形式的人工智能,即狭义人工智能,通常被称为“弱”AI,而另两种则被称为“强”AI。弱AI或侠义人工智能仅可完成某项特定的任务。但是,通用人工智能和超级人工智能,即强AI,可完成多项任务。
狭义人工智能(ANI)是一种弱AI,只能完成一项任务。虽然弱AI擅长完成某类任务,但在其他领域或任务中,弱AI就比不上人类了。
弱AI的一个示例是深蓝(Deep Blue),这是一台于1996年击败国际象棋冠军加里·卡斯帕罗夫的计算机。除了每秒可以评估2亿个国际象棋位置之外,深蓝(Deep Blue)无法胜任其他任务,是一种弱AI。
ANI广泛应用于科学、商业和医疗保健领域,以创建擅长某项特定任务的AI解决方案。弱AI程序常见的应用有:阅读医学图像,检测制造异常,以及发现商业数据中的规律。
通用人工智能(AGI)是两种强人工智能之一。AGI能够完成多项任务,这超越了机器在能力上变得更像人类的界限。在没有人类输入的情况下,AGI可以自主做出决定。AGI既有逻辑,也有情感。
目前还没有纯粹的AGI模型,但我们已经在朝着这个目标努力前进。聊天机器人和数字虚拟助理的沟通技巧越来越熟练,并且能对直接刺激做出情绪反应。一些研究人员也已开始训练机器人阅读人类情绪的能力。虽然这令人兴奋,但有情感的AI并非只是能读懂情绪并做出反应那么简单,我们还需要很多努力才能创建出通用人工智能。
科幻小说中讨论的AI是一种超级人工智能(ASI),是强AI的第二种类型。ASI模型是比人类更聪明、更有智慧和更具创造力的机器。这类AI尚未现世,只存在于科幻书中。甚至,科学家从未梦想过可以创造出这类强AI。
虽然目前尚未创造出这类强AI,但科学家已在一些不同的领域取得了进展,最终将有利于实现强AI。这些领域包括:
虽然现在大多数AI还只是弱AI,或者说是狭义AI,只能完成某一项任务,但对世界各地的企业和个人来说,这些AI仍具有革命性的意义。AI技术会继续向前发展,在自身迭代过程中不断超越已有的智能水平。
AI的智能源自哪里?答案是机器学习(Machine Learning, ML)。机器学习是更大的AI领域中的一个子领域。ML的重点是教会计算机如何学习,而不是通过编程来完成特定任务。或者可以说,机器学习是教授和训练AI完成特定任务的算法和模型。
机器学习有如下三个关键特征:
究其根本,机器学习模型使用一种算法来读取数千个或数百万个数据,然后得出结论或预测。为了正确读取数据,机器学习模型需要算法来指导其工作流程。机器学习模型必须要经过训练,才能分析数据和得出结论。我们可以利用数据集和特征来训练机器学习模型,使模型可以根据现实世界的数据,利用算法来得出结论。
计算机视觉(Computer Vision, CV)是机器学习的最佳应用之一。很多不同的用例都有应用计算机视觉(CV),但最令人激动的用例是自动驾驶汽车。
机器学习分为四类:监督学习、非监督学习、半监督学习和强化学习。
监督学习模型是指在一位老师的指导下,使用具有标注训练数据的数据集训练模型。训练数据在机器学习模型中运行后,再通过新的数据来测试模型。由研究人员负责审核模型结果的准确性。在准确率达到所设定阈值前,需要持续训练和再训练机器学习模型。
那些用于垃圾邮件过滤、语言检测、分类和计算机视觉的机器学习模型,经常会采用监督学习方法。
采用非监督学习方法来训练的机器学习模型,没有任何给定特征或目标。通过给定数据,训练机器学习模型搜索模式。非监督机器学习模型适合用来将数据聚类或分类,以及分析数据和提供见解。
非监督机器学习模型通常用于数据分割、异常检测、推荐引擎和风险管理。
半监督学习是将监督和非监督机器学习模型相结合。机器学习模型接收部分标注和部分未标注的数据集。虽然程序员可以预测机器学习模型会在数据中找到什么模式,但模型必须在没有任何训练的情况下找到数据中的结构。
采用强化学习方法来学习的机器学习模型,其学习方式与人类最为相似。强化学习是一种试错法。机器学习模型从正强化或负强化中学习。
强化学习是机器学习模型中最令人兴奋的形式之一。在强化学习模式下,程序员可以不用跟踪模型,让模型进入自主学习状态,并在不完善的环境中进行动态学习。
强化学习应用于游戏、机器人、自动驾驶汽车和资源管理,以及2023年最令人瞩目的大语言模型。在LLM的训练中,以人类反馈为基础的强化学习是非常重要的微调方式,为大模型的反馈质量提供重要保证。
深度学习(Deep Learning, DL)是机器学习的一个子领域。深度学习和其他类型机器学习的区别是算法的学习方式和算法使用的数据量。虽然深度学习需要大量数据集,但只需要极少的人工干预。
深度学习旨在模仿拥有复杂多层神经网络的人脑结构。数据通过连接通道在神经网络之间传输。深度机器学习模型可以使用标注数据集来学习,但这些数据集并不是必需品。深度学习模型可以通过监督或非监督学习模式来学习。
人工智能深度学习最令人兴奋的一个方面是,它可以使用非结构化或未标注的数据进行学习。未来的AI时代,模型能够在非监督模式下学习。
经过前面的介绍,我们了解到AI、机器学习和深度学习是同一主题下的分支,他们的关系如下:
当涉及AI、机器学习和深度学习时,您可以采取不同的方法设计项目。设计和部署AI项目有两种最常见的方法,即以模型为中心和以数据为中心。
以模型为中心的AI项目会将大量时间花费在开发正确的AI或机器学习模型上。当您将大量时间花费在模型构建上时,您就不会在第一时间就关注数据。虽然您也会收集所需的数据,但您的重点是构建一个能够处理数据噪音的绝佳模型。在整个项目过程中,您要不断改进、调整模型和代码,以提高模型性能。
与以模型为中心的方法相比,不同的是,您会拥有一个以数据为中心的模型。这类型模型主要关注数据,而不是模型本身。澳鹏坚信,数据是AI项目中最重要的部分。
无论您设计哪种类型的AI、ML或深度学习项目,您都需要高质量数据来启动项目。数据就是AI的“食粮”。数据收集、清理和标注是AI项目开发过程中的重要组成部分。即使AI项目已经启动,您也需要持续标注和改善数据质量,以获得更佳结果。
机器学习和AI专家Andrew Ng建议,数据准备应占用您80%的时间和资源,而实际的模型训练应仅占用20%。训练一直是大多数正在启动AI项目的企业的主要关注点,但如今这种观点已开始发生变化。相关研究和数据表明,高质量数据会带来高质量的AI结果。
虽然花费大量时间收集、清理和标注数据与训练机器学习模型似乎是对立的,但关注数据确实可以改善项目的投资回报率和结果。下文我们将说明以数据为中心的方法会如何改进机器学习模型。
当涉及到数据时,一致性是关键。您必须一致地标注数据,即使是不同批次的数据和不同数据标注者所标注的数据。至关重要的是,在数据标注过程中,您对质量保证要有高的期望和强有力的政策,以确保正确标注数据。
在建立以数据为中心的机器学习模型时,另一个反直觉的建议是故意在标注过程中引入一些噪音,或不一致的情况。
一致性是小型数据集的关键。这有助于训练模型并获得高质量的结果。但是,当您开始处理大型数据集时,一点噪音实际上是有益的。当数据过于完美时,机器学习模型会无法在现实世界中发挥作用,因为现实世界中没有十全十美的事情。实际上,在数据中添加一些噪音可以提高机器学习模型的准确性和能力。我们可以为您准备合适程度的噪音数据,提高机器学习模型的性能。
成功部署以数据为中心的机器学习模型的关键步骤之一是质量保证。在模型和数据的整个生命周期中,您需要定期进行检查。
在数据标注过程中,要确保所有数据标注者以相同的方式标注数据点,这对质量保证来说至关重要。如果在质量保证过程中发现有差异,您可以重新培训标注人员,以纠正错误标注的数据点。不断地检查模型及其偏移情况也很重要。
现在,机器学习辅助的质检工具也已经开始流行,在预标注、人工校对、人工质检之外,机器学习辅助的质检工具可以更高效地帮助进行质量检查,保证数据质量符合要求,并提高标注效率。
机器学习模型并不只是训练和完成。您必须定期检查、更新和重新训练模型,确保模型持续产生准确的结果。将系统范围的质量保证政策落实到位,有助于确保机器学习模型保持准确性。
人工智能、机器学习和深度学习经常被提到,他们是一个整体中的不同分支。深度学习是机器学习的一种类型,而机器学习又是AI的一个子领域。
而且,就像其他新技术一样,社会上对于如何最好地实施和使用这项技术有着不同的意见。有些人认为,AI和机器学习模型中最重要的部分是模型本身。其他人,包括我们自己,知道数据是促进模型发挥作用并实现最高投资回报的关键部分。