机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。简单的归纳就是,是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习;没标签则为无监督学习。
在监督学习中,模型使用标记数据集进行训练,其中模型学习每种类型的数据。训练过程完成后,模型会根据测试数据(训练集的子集)进行测试,然后预测输出。
常见方式:
支持向量机(Support Vector Machines)
神经网络算法(Neural network algorithm)
线性回归(linear regression)
逻辑回归(logistic regression)
朴素贝叶斯(naive Bayes)
线性判别分析(linear discriminant analysis)
决策树(decision trees)
K-近邻(k-nearest neighbor algorithm)
模型使用未标记的数据集进行训练,并允许在没有任何监督的情况下对该数据进行操作,模型本身会从给定数据中找到隐藏的模式和见解。它可以比作在学习新事物时发生在人脑中的学习。
常见方式:
K-means聚类
KNN(k – 最近邻)
层次聚类
异常检测
神经网络
主成分分析
独立成分分析
先验算法
奇异值分解
有监督和无监督中间包含的一种学习算法是半监督学习(semi-supervised learning)。对于半监督学习,其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常极大于有标签数据数量(这也是符合现实情况的)。隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。
?