什么是特征?在机器学习中,特征是一个现象的个别可测量的属性或特征。让我们观察一束阳光,直接看的话,它是白光,但是我们使用三菱镜,它就是七种颜色的光。所以,选取的事物的特征不同,我们观测的结果就会不一样。
?四、特征设计原理
新特征设计应与目标高度相关,要考虑的问题:
新构建特征验证其有效性要考虑的问题:
通常情况下,合理的数据变换能帮助现有模型更好的理解样本中的信息。比如年龄特征,收入特征等数据参差不齐,需要做离散化,分为老,中,幼,高收入,中等收入,低收入等。
有些时候我们需要对数据进行粗粒度、细粒度划分,以便模型更好的学习到特征的信息,比如:
方法
设定一个划分的阈值,当数值大于设定的阈值时,就赋值为1;反之赋值为0。典型例子:划分年龄段
分箱法:等宽(宽度)分箱法、等频(频数)分箱法 聚类划分:使用聚类算法将数据聚成几类,每一个类为一个划分
典型例子
年龄、收入
优缺点
优点:(1)降低数据的复杂性 (2)可在一定程度上消除多余的噪声
很多算法模型不能直接处理字符串数据,因此需要将类别型数据转换成数值型数据
方法
通常用来处理类别间具有大小关系的数据,比如成绩(高中低)
通常用于处理类别间不具有大小关系的特征,比如血型(A型血、B型血、AB型血、O型血), 独热编码会把血型变成一个稀疏向量,A型血表示为(1,0,0,0),B型血表示为(0,1,0,0), AB型血表示为(0,0,1,0),O型血表示为(0,0,0,1)
二进制编码主要分为两步,先用序号编码给每个类别赋予一个类别ID,然后将类别ID对应的二进制编码作为结果。 以A、B、AB、O血型为例,A型血表示为00,B型血表示为01, AB型血表示为10,O型血表示为11
优缺点
缺点:有些模型不支持离散字符串数据,离散编码便于模型学习
方法 简单常用的函数变换法(一般针对于连续数据):平方(小数值—>大数值)、开平方(大数值—>小数值)、指数、对数、差分
典型例子
对时间序列数据进行差分
数据不呈正态分布时可运用
当前特征数据不利于被模型捕获时
优缺点
优点:
根据实际情况需要,结合与目标相关性预期较高的情况下,由原始特征进行算数运算而形成新的特征。
解读概念为几种情况:
在特征构造这一块是没有什么明文规定的方法,特征构造更多的是结合实际情况,有针对性的构造与目标高度相关的特征,只要构造的新特征能够解释模型和对模型具有促进作用,都可以作为新指标新特征。
从哪些方面来选择特征呢?
当数据处理好之后,我们需要选择有意义的特征输入机器学习的模型进行训练,通常来说要从两个方面考虑来选择特征,如下:
1、特征是否发散
如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。
2、特征与目标的相关性
这点比较显见,与目标相关性高的特征,应当优先选择。
区别:特征与特征之间相关性高的,应当优先去除掉其中一个特征,因为它们是替代品。
为什么要进行特征选择?
处理高维数据的两大主流技术
特征选择和降维
特征选择有哪些方法呢?
特征工程做的好,后期的模型调参更容易甚至不用调参,模型的稳定性,可解释性也要更好。如果特征工程做得不好,模型评估怎么调参都调不到理想的效果,那么就需要大量消耗时间继续重复处理、筛选特征,直到模型达到理想的效果。
参考: