Pandas 中的分组与聚合操作是数据分析中常用的技术,能够对数据进行更复杂的处理和分析。在本篇博客中,我们将深入介绍 Pandas 中的高级分组与聚合功能,通过实例演示如何灵活应用这些技术。
确保你已经安装了 Pandas。如果尚未安装,可以使用以下命令:
pip install pandas
在使用 Pandas 进行高级分组与聚合之前,导入 Pandas 库:
import pandas as pd
在学习高级分组与聚合之前,首先创建一个示例数据集:
data = {
'Category': ['A', 'B', 'A', 'B', 'A', 'B'],
'Value1': [10, 15, 20, 25, 30, 35],
'Value2': [100, 150, 200, 250, 300, 350],
'Label': ['X', 'Y', 'Z', 'X', 'Y', 'Z']
}
df = pd.DataFrame(data)
在高级分组与聚合中,我们可以定义自己的聚合函数。例如,定义一个计算均值和标准差的函数:
def custom_aggregation(series):
return pd.Series([series.mean(), series.std()], index=['mean', 'std'])
agg 方法可以同时应用多个聚合函数,并对多列进行不同的聚合:
# 高级分组与聚合
result = df.groupby('Category').agg({'Value1': 'sum', 'Value2': custom_aggregation})
# 使用多个聚合函数
result = df.groupby('Category').agg({
'Value1': ['sum', 'mean', 'min', 'max'],
'Value2': custom_aggregation
})
transform 方法可以将聚合结果广播回原始 DataFrame:
# 使用 transform 方法
df['Value1_Sum'] = df.groupby('Category')['Value1'].transform('sum')
# 创建多级索引
multi_index_df = df.groupby(['Category', 'Label']).agg({'Value1': 'mean'})
# 多级索引的交换与切片
swapped_df = multi_index_df.swaplevel().sort_index()
sliced_df = swapped_df.loc['X':'Y']
apply 方法可以更灵活地应用自定义聚合函数:
# 使用 apply 方法
result_apply = df.groupby('Category').apply(lambda group: custom_aggregation(group['Value1']))
result_apply.columns = ['mean', 'std']
在进行高级分组与聚合时,可以使用 dropna 方法处理缺失值:
# 处理缺失值
result_dropna = df.groupby('Category').agg({'Value1': 'sum', 'Value2': 'mean'}).dropna()
通过学习以上 Pandas 中的高级分组与聚合操作,你可以更灵活地处理各种数据集,实现更复杂的分析需求。这些技术在实际数据分析和建模中经常用到,希望这篇博客能够帮助你更好地理解和运用 Pandas 中高级的分组与聚合功能。