特征选择的目标
构造机器学习的模型的目的是希望能够从原始的特征数据集中学习出问题的结构与问题的本质,此时的挑选出的特征就应该能够对问题有更好的解释;特征决定了机器学习的上限,而模型和算法只是去逼近这个上限,所以特征选择的目标大概如下:
Filter(过滤法)
基本想法是:对每个特征,分别计算它相对于类别标签的信息量,将所有信息量按照从大到小排序,输出前 k 个特征。关键的问题就是使用什么样的方法来度量信息量。
方差选择法
首先计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。即去掉变化程度小的特征,这种方法是最简单的方法,但是并不好用,因为大部分特征并不是一成不变的。
Pearson相关系数
Pearson相关系数衡量的是变量之间的线性相关性,结果的取值区间为[-1,1] , -1 表示完全的负相关, +1 表示完全的正相关, 0 表示没有线性相关性。
Pearson相关系数的计算公式为:
ρ =