特征处理
二、时间特征处理
将原本的具体时间拆分为年月日等多个特征变量,同时可以引入在一天的某个时间段,或者是当天是否为节假日等其他条件,还可以进一步结合其他特征,进行前后一个时间段或是多个时间段时间的特征差值。
dt.shift(periods=1, freq=None, axis=0)
连续型变量处理(一)
单特征
- 归一化和标准化
数据的归一化和标准化是特征缩放的方法。不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据归一化/标准化处理,以解决数据指标之间的可比性。原始数据经过数据归一化/标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
x_{new} = \frac{x - x_{min}}{x_{max} - x_{min}}
- 标准化:
这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:
x_{new} = \frac{x - \mu}{\sigma}
其中
μ
\mu
μ是样本数据的均值(mean),
σ
\sigma
σ是样本数据的标准差(std)。此外,标准化后的数据保持异常值中的有用信息,使得算法对异常值不太敏感,这一点归一化就无法保证。
- 离散化
特征离散化是指将原本连续的特征或变量划分为离散型变量的过程。
- 无监督离散
- 等宽分箱:按照相同的宽度将数据进行分成若干等分;
- 等频分箱:将数据分为若干等分;
- 聚类分箱:k均值聚类法将观测值聚为k类;
- 有监督离散
- 卡方分箱:通过计算数值之间的卡方值,将数据按照设定的卡方值阈值进行分类;
- 最小熵分箱:最小熵分箱将待分箱特征的所有取值都放到一个箱体里,然后依据设定的最小熵原则进行箱体分裂。
- 数据变换
- log:将所有数据进行log变换
- 指数:将所有指数进行指数变换
- box-cox变换:Box-Cox变换的主要特点是引入一个参数,通过数据本身估计该参数进而确定应采取的数据变换形式,Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性