源自:《深度学习》(徐立芳/主编? 莫宏伟/副主编)
在已知某条件概率P(A|B)的情况下,用以下公式求得P(B|A)
P(A|B)表示事件B发生的前提下,事件A发生的概率。
该算法主要用来解决分类和回归问题。
是一种非参数的监督式学习方法,从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则。
所有的数据最终都会落到叶子节点,既可以做分类也可以做回归。
常见算法:分类及回归树、随机森林、多元自适应回归样条
作用:减小测试误差的行为(有时会增加训练误差)。
复杂模型拟合数据容易出现过拟合(训练集表现很好,测试集表现较差),导致模型泛化能力下降,应使用正则化降低模型复杂度。
常见算法:L1参数正则化、L2参数正则化
在处理非线性分类问题时,可以采用非线性映射把输入空间的数据映射到高维特征空间,在特征空间中构造分类的最优超平面,从而使分类或回归问题更容易解决。
存在核函数K,将m维高维空间的内积运算转化为n维低维输入空间的核函数进行计算,解决“维数灾难”问题。
常见算法:支持向量机(SVM)、基于核的Fisher判别分析(KFD)、核主成分分析(KPCA)等。
反映一个事物与其他事物之间的相互依存性和关联性。
常见算法:先验算法、FP-Growth算法(分而治之,递归地划分)、图挖掘(将关联分析用于基于图的数据,在图的集合中有一组公共子结构:频繁子图挖掘)
统计学中:确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。?
大数据分析中:预测性的建模技术,研究因变量(目标)和自变量(预测器)之间的关系。
无监督式学习方法。
将每个数据点划分为一个特定的组。通常按照中心点或分层的方式对输入数据进行归并。
常见算法:k-Means算法、期望最大化算法
将多个相对较弱的学习模型集成在一起的技术,选择不同子集训练不同分类器,使用投票方式综合各分类器的输出。
包括:随机森林、Bagging方法、Boosting方法