有监督学习是通过已知的输入-输出对(即标记过的训练数据)来学习函数关系的过程。在训练阶段,模型会根据这些示例调整参数以尽可能准确地预测新的、未见过的数据点的输出。 实例:垃圾邮件分类器。训练数据集包含一系列电子邮件及其对应的标签(垃圾邮件或非垃圾邮件)。通过学习这些特征与标签之间的关联,模型可以用于识别新的邮件是否为垃圾邮件。
在无监督学习中,没有给定特定的输出标签,算法需要自己发现数据中的内在结构、模式或集群。它的目标通常是将数据进行分组或降维,以便更好地理解数据分布。 实例:客户细分。假设我们有一组客户的行为数据(如购买历史、访问频率等),但没有明确的类别标签。使用聚类算法(例如K-means)可以将相似行为模式的客户自动划分为不同的群体。
半监督学习 (Semi-supervised Learning)
介于有监督学习和无监督学习之间,它利用一部分带有标签的数据和大量未标记的数据进行学习。通常在标注数据有限的情况下,这种学习方式可以帮助提高模型性能。 实例:图像分类。如果只有部分图像被人工标注了类别,而剩余大部分图像没有标签,模型可以通过分析图像间的相似性,在已知标签图像的帮助下,推断出未标记图像的类别。
强化学习 (Reinforcement Learning, RL)
是一种序列决策过程的学习方法,智能体通过与环境交互获得奖励或惩罚,并根据这些反馈调整其策略以最大化长期累积奖励。 实例:AlphaGo(围棋AI)。AlphaGo在每次走棋时都会得到一个即时的奖励信号(赢棋或输棋的最终结果,以及过程中每一步棋的相对价值估计),通过不断对弈学习最优策略,逐步提高棋艺水平。
输入 (Input): 输入是指模型接收到的数据或信息。这些数据通常以**特征【属性与特征区别:属性可以理解为路程,特征可以理解为路程是1公里,特征有具体值。】**的形式呈现,可以帮助模型理解和分析问题。例如,在房价预测的任务中,输入可能包括房屋的面积、卧室数量、地理位置、建成年份等特征。
实例:设想一个简单的水果识别系统,这里的输入可能是一张包含水果的图片。这张图片会被转换为像素值等数字特征,作为模型判断“这是什么水果”的依据。
输出 (Output): 输出是模型根据输入数据经过处理后得出的结果。对于分类任务,输出是一个类别标签;回归任务则是一个连续数值;而强化学习中输出可能是采取某个动作的决策。
继续上面的水果识别系统例子,模型的输出将是识别出的水果种类,如苹果、香蕉或橙子。
在房价预测模型中,输出将是基于输入特征预测出的该房屋的价格(一个具体的数值)。
对于强化学习中的AlphaGo,每一步棋的输出则是它决定走的下一步棋的位置(即策略选择)。
输入:模型接收到的是一封电子邮件的内容,包括邮件主题、正文、发件人信息等特征,这些特征被转化为数值向量表示。
处理过程:模型使用如逻辑回归、朴素贝叶斯、支持向量机或深度学习等算法,通过学习训练集中已标记为“垃圾邮件”或“非垃圾邮件”的邮件样本特征与标签之间的关联规律。
输出:模型预测给定新邮件是否为垃圾邮件,输出结果是一个概率值或者类别标签。例如,输出0.95可能意味着模型判断该邮件是垃圾邮件的概率为95%,而输出“垃圾邮件”则直接指明了邮件类型。
输入:模型接收一组客户的多维度数据,比如消费记录、浏览行为、购买频率、产品偏好等特征。
处理过程:应用聚类算法(如K-means或层次聚类),将相似特征的客户归入同一簇中,算法根据数据内在结构和模式自动划分集群,无需事先知道客户的具体类别。
输出:模型最终生成多个客户群体,并为每个客户提供一个所属的簇标识。例如,输出可能是客户A属于“高价值潜在用户”簇,客户B属于“频繁购物者”簇。
输入:一部分图像具有人工标注的类别标签,其余大部分图像没有标签。每张图片都转换为像素强度构成的数字矩阵作为特征。
处理过程:模型首先利用有限的带标签数据进行初步训练,然后在大量未标记的数据上运用自训练、迁移学习或生成对抗网络等方法来进一步提升模型性能。
输出:对于新的未知类别图像,模型能够预测出其所属类别。例如,输出一张未知猫狗照片的类别为“猫”。
输入:在每一轮游戏过程中,AlphaGo的输入是当前围棋棋盘的状态,即黑子白子的位置分布。
处理过程:AlphaGo基于深度神经网络(策略网络和价值网络)计算出各种可能下法的得分和局面评估值,并通过蒙特卡洛树搜索结合这两个网络的结果,确定最优走法。
输出:在每一步决策时,模型会输出它认为最佳的下一步落子位置,从而采取行动。随着游戏的进行,不断学习并优化策略以最大化最终获胜的可能性。