特征工程（二）

发布时间：2024年01月10日

特征工程（二）

在这里插入图片描述

特征理解

理解手上的数据，就可以更好的明确下一步的方向。从繁杂的切入点中，主要着眼于一下几个方面：

结构化数据与非结构化数据；
数据的4个等级；
识别数据中存在的缺失值；
探索性数据分析；
描述性统计；
数据可视化；

我们从理解最基础的数据结构入手，然后研究不同的数据类型。在理解数据后，就可以开始修正有问题的数据了。例如，我们必须知道数据中有多少缺失值，以及如何处理。
可以查看这篇文章

特征增强

在理解数据后，可以对数据集进行清洗
主要包括一下内容：

对非结构化数据进行结构化；
数据填充——在原先没有数据的位置填充（缺失）数据
数据归一化
- 标准化（也称为z-score标准化）
- 极差化（也称为min-max标准化）
- L1和L2正则化

特征选择

对数据属性进行筛选，选择那些对我们的机器学习流水线有帮助的属性进行提取，得到特征。
这些方法主要包括：

相关系数
识别并移除多重共线性
卡方检验；
方差分析
理解 $p$ 值
迭代特征选择；
用机器学习测量熵和信息增益

特征构建

在进行数据集处理的时候，不仅可以进行特征筛选，选出可用的特征，也可以主动将数据进行构建，通过不同的构建思路，构建新的特征。

文章来源:https://blog.csdn.net/weixin_43186779/article/details/135489392
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！