如何使用python检验样本数据概率分布

发布时间:2023年12月20日

0. 前言

python科学计算库scipy中提供了检验样本数据概率分布的api,在此对其使用方法做个简单记录,可分为形状参数已知和未知两种情况。

1. 形状参数已知

给定样本数据,通过plt.hist绘制统计直方图能够大概确定其属于何种分布,但是往往我们需要确定分布参数,如位置(loc)和尺度(scale)参数,可通过scipy.stats.probplot获取。

以高斯分布为例(没有形状参数,视为已知):

from scipy import stats
import matplotlib.pyplot as plt

x_norm = stats.norm.rvs(loc=0.0, scale=1, size=1000, random_state=2023)
_, (slope, intercept, r) = stats.probplot(x_norm, dist='norm', plot=plt, rvalue=True)

plt.show()

返回的slope和intercept为拟合直线的斜率和截距,分别代表着样本数据分布的尺度和位置参数;r为决定系数,取值范围从0到1,越接近1表示模型对数据的拟合程度越好。

2. 形状参数未知

对于具有形状参数的统计分布(例如tukey-lambda分布),在形状参数未知的情况下,可以先通过scipy.stats.ppcc_max获取形状参数,再通过scipy.stats.probplot获取loc和scale参数。

x_tl = stats.tukeylambda.rvs(lam=0.14, loc=0.0, scale=1.0, size=1000, random_state=2023)
shape_value = stats.ppcc_max(x_tl, brack=(0.0, 1.0), dist='tukeylambda')
_, (slope, intercept, r) = stats.probplot(x_tl, sparams=(shape_value,), dist='tukeylambda', plot=plt, rvalue=True)

plt.show()

参考

scipy.stats.probplot官方doc
scipy.stats.ppcc_max官方doc

文章来源:https://blog.csdn.net/zxdd2018/article/details/135111653
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。