特征工程-特征处理（二）

发布时间：2024年01月15日

特征处理

在这里插入图片描述

二、时间特征处理

将原本的具体时间拆分为年月日等多个特征变量，同时可以引入在一天的某个时间段，或者是当天是否为节假日等其他条件，还可以进一步结合其他特征，进行前后一个时间段或是多个时间段时间的特征差值。

dt.shift(periods=1, freq=None, axis=0)

连续型变量处理（一）

单特征

归一化和标准化
数据的归一化和标准化是特征缩放的方法。不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据归一化/标准化处理，以解决数据指标之间的可比性。原始数据经过数据归一化/标准化处理后，各指标处于同一数量级，适合进行综合对比评价。
- 归一化：
```
x_{new} = \frac{x - x_{min}}{x_{max} - x_{min}} 
```
- 标准化：
  这种方法给予原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1，转化函数为：
```
x_{new} = \frac{x - \mu}{\sigma} 
```

其中 $\mu$ 是样本数据的均值（mean）， $\sigma$ 是样本数据的标准差（std）。此外，标准化后的数据保持异常值中的有用信息，使得算法对异常值不太敏感，这一点归一化就无法保证。

离散化
特征离散化是指将原本连续的特征或变量划分为离散型变量的过程。

无监督离散
- 等宽分箱：按照相同的宽度将数据进行分成若干等分；
- 等频分箱：将数据分为若干等分；
- 聚类分箱：k均值聚类法将观测值聚为k类；
有监督离散
- 卡方分箱：通过计算数值之间的卡方值，将数据按照设定的卡方值阈值进行分类；
- 最小熵分箱：最小熵分箱将待分箱特征的所有取值都放到一个箱体里，然后依据设定的最小熵原则进行箱体分裂。

数据变换
- log：将所有数据进行log变换
- 指数：将所有指数进行指数变换
- box-cox变换：Box-Cox变换的主要特点是引入一个参数，通过数据本身估计该参数进而确定应采取的数据变换形式，Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性

文章来源:https://blog.csdn.net/weixin_43186779/article/details/135609065
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！