机器学习（三） -- 特征工程（更新中）

发布时间：2023年12月31日

系列文章目录

机器学习（一） -- 概述

机器学习（二） -- 数据预处理（1-3）

未完待续……

系列文章目录

前言

tips：这里只是总结，不是教程哈。

“***”开头的是给好奇心重的宝宝看的，其实不太重要可以跳过。

此处以下所有内容均为暂定，因为我还没找到一个好的，让小白（我自己）也能容易理解（更系统、嗯应该是宏观）的讲解顺序与方式。

第一文主要简述了一下机器学习大致有哪些东西（当然远远不止这些），对大体框架有了一定了解。接着我们根据机器学习的流程一步步来学习吧，掐掉其他不太用得上我们的步骤，精练起来就4步（数据预处理，特征工程，训练模型，模型评估），其中训练模型则是我们的重头戏，基本上所有算法也都是这一步，so，这个最后写，先把其他三个讲了，然后，在结合这三步来进行算法的学习，兴许会好点（个人拙见）。

一、特征工程简介

其实数据预处理和特征工程，两者并无明显的界限，都是为了更好的探索数据集的结构，获得更多的信息，将数据送入模型中之前进行整理。可以说数据预处理是初级的特征处理，特征工程是高级的数据预处理，也可以说这里的预处理过程是广义的，包含所有的建模前的数据预处理过程。（简单理解，就是数据预处理是数据本身的问题，如数据缺失，特征工程是为了更好的让数据进行机器学习，如进行降维）

为什么需要特征工程？

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。所以需要在特征上下功夫。

1、特征工程定义：

特征工程是使用一定技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。会直接影响机器学习的效果。

2、特征工程包含内容：

特征提取（特征抽取）、特征预处理、特征降维

（基本上==特征构建、特征变换、特征选择）

二、特征提取

1、定义

将任意数据（如文本或图像）转换为可用于机器学习的数字特征。

注：特征值是为了计算机更好的去理解数据。

主要分为字典特征提取（特征离散化）、文本特征提取、图像特征提取（深度学习再介绍）

特征提取API是

sklearn.feature_extraction

from sklearn.feature_extraction

2、字典特征提取

该

3、文本特征提取

该

三、特征预处理

1、定义

通过一些转换函数，将特征数据转换成更适合算法模型的特征数据的过程。

数值数据的无量纲化：主要有两种归一化、标准化

为什么要进行归一化/标准化？

特征的单位或者大小相差较大，或者某特征的方法相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些算法无法学习到其它的特征

2、归一化

该

3、标准化

该

四、特征降维

1、定义

降维是指在某些限定条件下，降低随机变量（特征）个数，得到一组“不相关”主变量的过程。

降维的两种方式：特征选择、主成分分析（可以理解一种特征提取的方式）

2、特征选择

该

3、主成分分析

该

1.1、嗡嗡嗡

嗡嗡嗡

1.2、十五万

嗡嗡嗡

总结

提示：这里对文章进行总结：

例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

文章来源:https://blog.csdn.net/zqx1473/article/details/135307321
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！