资料来源:用Python动手学统计学
多变量的描述统计,通常利用pandas的groupby函数将数据进行分组处理,然后再计算各统计量。
import numpy as np
import pandas as pd
import scipy as sp
data_set=pd.DataFrame(
{"type":['A','A','A','B','B','B'],
"data":[2,3,4,6,8,10]}
)
group=data_set.groupby('type')
type(group)
现在group变量已经按照type对数据进行分组,后面对group进行统计处理,即可获得不同type的统计量。
group.mean()
group.std(ddof=1),ddof的用法参照:python统计分析——单变量描述统计-CSDN博客
最大值:group.max()
最小值:group.min()
group.count()
group.sum()
group.median()
下四分位数:group.quantile(q=0.25)
上四分位数:group.quantile(q=0.75)
group.describe()