Pandas实战100例 | 案例 93: 转换为分类数据类型

发布时间:2024年01月18日

案例 93: 转换为分类数据类型

知识点讲解

在处理具有重复值的列时,将数据转换为分类数据类型(categorical)可以提高效率并减少内存使用。Pandas 允许你将列转换为分类数据类型,这在处理具有有限数量唯一值的数据时特别有用。

  • 转换为分类数据类型: 使用 astype('category') 方法可以将列转换为分类数据类型。这对于优化性能和内存使用非常有效。
示例代码
# 准备数据和示例代码的运行结果,用于案例 93

# 示例数据
data_categorical_conversion = {
    'Category': ['A', 'B', 'C', 'A', 'B']
}
df_categorical_conversion = pd.DataFrame(data_categorical_conversion)

# 转换为分类数据类型
df_categorical_conversion['Category'] = df_categorical_conversion['Category'].astype('category')

df_categorical_conversion, df_categorical_conversion['Category'].dtypes


在这个示例中,我们将 Category 列转换为了分类数据类型。

示例代码运行结果

转换后的 DataFrame (df_categorical_conversion):

  Category
0        A
1        B
2        C
3        A
4        B

Category 的数据类型 (df_categorical_conversion['Category'].dtypes):

CategoricalDtype(categories=['A', 'B', 'C'], ordered=False)

这个结果展示了如何将列转换为分类数据类型。分类数据类型在处理包含重复值的列时非常有用,因为它可以提高数据处理的效率和性能。

文章来源:https://blog.csdn.net/PoGeN1/article/details/135619673
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。