提问:什么是独热编码?
回答:独热编码是一种常用的数据编码方法,用于将分类变量转换为 二进制
的表示形式。它将每个类别表示为一个只包含 0和1
的二进制向量,其中每个类别对应一个维度,维度上的值为1表示该样本属于该类别,为0表示不属于该类别。
对于离散特征可以采用One-Hot编码的方式来处理,使用M位状态寄存器对M个状态进行编码,M个变量用M维表示,每个维度的数值或为1,或为0。
举例说明:
对于学历特征,可以将其取值 “小学”、“中学”、“本科”、“硕士” 和 “博士” 进行独热编码。下面是各个取值的独热编码示例:
"小学":[1, 0, 0, 0, 0]
"中学":[0, 1, 0, 0, 0]
"本科":[0, 0, 1, 0, 0]
"硕士":[0, 0, 0, 1