python科学计算库scipy中提供了检验样本数据概率分布的api,在此对其使用方法做个简单记录,可分为形状参数已知和未知两种情况。
给定样本数据,通过plt.hist
绘制统计直方图能够大概确定其属于何种分布,但是往往我们需要确定分布参数,如位置(loc)和尺度(scale)参数,可通过scipy.stats.probplot
获取。
以高斯分布为例(没有形状参数,视为已知):
from scipy import stats
import matplotlib.pyplot as plt
x_norm = stats.norm.rvs(loc=0.0, scale=1, size=1000, random_state=2023)
_, (slope, intercept, r) = stats.probplot(x_norm, dist='norm', plot=plt, rvalue=True)
plt.show()
返回的slope和intercept为拟合直线的斜率和截距,分别代表着样本数据分布的尺度和位置参数;r为决定系数,取值范围从0到1,越接近1表示模型对数据的拟合程度越好。
对于具有形状参数的统计分布(例如tukey-lambda分布),在形状参数未知的情况下,可以先通过scipy.stats.ppcc_max
获取形状参数,再通过scipy.stats.probplot
获取loc和scale参数。
x_tl = stats.tukeylambda.rvs(lam=0.14, loc=0.0, scale=1.0, size=1000, random_state=2023)
shape_value = stats.ppcc_max(x_tl, brack=(0.0, 1.0), dist='tukeylambda')
_, (slope, intercept, r) = stats.probplot(x_tl, sparams=(shape_value,), dist='tukeylambda', plot=plt, rvalue=True)
plt.show()