大数据HCIE成神之路之数据预处理(6)——特征编码

发布时间:2023年12月28日

1.1 独热编码

提问:什么是独热编码?
回答:独热编码是一种常用的数据编码方法,用于将分类变量转换为 二进制 的表示形式。它将每个类别表示为一个只包含 0和1 的二进制向量,其中每个类别对应一个维度,维度上的值为1表示该样本属于该类别,为0表示不属于该类别

对于离散特征可以采用One-Hot编码的方式来处理,使用M位状态寄存器对M个状态进行编码,M个变量用M维表示,每个维度的数值或为1,或为0。

举例说明:

对于学历特征,可以将其取值 “小学”、“中学”、“本科”、“硕士” 和 “博士” 进行独热编码。下面是各个取值的独热编码示例:

"小学"[1, 0, 0, 0, 0]
"中学"[0, 1, 0, 0, 0]
"本科"[0, 0, 1, 0, 0]
"硕士"[0, 0, 0, 1
文章来源:https://blog.csdn.net/shaock2018/article/details/135233823
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。