一文秒懂离差-变差-方差-标准差-误差-残差-偏差

发布时间:2024年01月24日

离差、变差、方差、标准差用于测量一组数据的分散程度,或者说一个指标的波动程度。

1.离差(deviation):指的是任何一个观测值与平均值之间的差异,计算公式是观测值减去平均值。

eg: 假设我们有一组身高数据,如:160cm, 165cm, 170cm, 175cm, 180cm。我们计算这组数据的平均值为170cm。然后我们可以计算每个数据点与平均值之间的离差,比如第一个数据点的离差为-10cm(160-170),第二个数据点的离差为-5cm(165-170),以此类推。
注意:离差反映了某个“个体”偏离“中央”的程度,但千万不能叫“偏差”

2.变差(variation):指的是所有离差的平方和,也就是所有观测值与平均值之间的距离的平方的总和。

eg:上面的变差应该为= ( 160 ? 170 ) 2 + ( 160 ? 170 ) 2 + ( 160 ? 170 ) 2 + ( 160 ? 170 ) 2 + ( 160 ? 170 ) 2 (160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2 (160?170)2+(160?170)2+(160?170)2+(160?170)2+(160?170)2

注意:变差可被看作是“总的离差”,因为把所有的离差累积起来可以全面反映数据的波动情况。但正如你所见,离差有正有负,求和之后恰好为零,因此数学家只好变通一下,先平方一下(消除负号),然后再求和。

3.方差(variance, VAR):指的是变差除以观测个数,也就是离差的平方和的均值。它反映了数据的整体波动程度

eg:上面的方差应该为= ( 160 ? 170 ) 2 + ( 160 ? 170 ) 2 + ( 160 ? 170 ) 2 + ( 160 ? 170 ) 2 + ( 160 ? 170 ) 2 5 \frac{(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2}{5} 5(160?170)2+(160?170)2+(160?170)2+(160?170)2+(160?170)2?

注意:方差可被看作是“平均变差”,这样可以剔除数据规模的影响,更公平地比较两组数据的波动程度。

4.标准差(standard deviation, SD):指的是方差的平方根,也就是离差的平方和的均值的平方根。它也反映数据的整体波动程度。
eg:上面的方差应该为= ( 160 ? 170 ) 2 + ( 160 ? 170 ) 2 + ( 160 ? 170 ) 2 + ( 160 ? 170 ) 2 + ( 160 ? 170 ) 2 5 \sqrt{\frac{(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2}{5}} 5(160?170)2+(160?170)2+(160?170)2+(160?170)2+(160?170)2? ?

注意:方差和标准差都可以用来比较不同数据集的离散程度,但标准差更容易解释,因为它具有与原始数据相同的量纲。这意味着,如果我们有两个不同的数据集,它们的标准差可以直接用来比较它们的离散程度,而不需要担心数据的量纲不同导致的不确定性。

误差、残差、偏差,它们常被用来刻画数据的拟合程度。

5.误差(error):指的是观测值与真实值之间的差异,也就是测量结果与真实情况的偏离程度。

eg:我实际身高168,由于尺子变形或者没看仔细,测出身高是164,那么这个测量就存在误差-4cm=164-168。误差包括系统误差(尺子变形)和随机误差(没看仔细)两部分。

6.残差(residual):指的是估计值与观测值之间的差异,也就是模型预测结果与实际观测结果的偏离程度。

eg:我实测身高是168,假设我们建立了一个体重与身高的线性回归模型,用体重来预测身高。当我们用这个模型预测我的身高为169时,残差为-1cm=168cm-169cm。就是“残留”下来无法解释的部分。
在这里插入图片描述
图片来源:https://blog.csdn.net/qq_43382509/article/details/105179378

6.偏差(bias):指的是观测值与真实值之间的系统性偏离,或者估计值与观测值之间的系统性偏离。偏差反映的是测量或模型存在一定程度的系统误差。

eg: 假设我们要估计某个班级学生的平均身高。通过对一部分学生进行抽样调查后,我们得出平均身高为160cm。但实际上,由于我们只对一部分学生进行了调查,这个估计值可能存在偏差,即与班级所有学生的真实平均身高存在一定的偏离。这种偏差可能是由于抽样方法、样本容量等因素导致的。

通俗理解,误差反映了“你量的准不准”,残差反映了“你猜的准不准”,偏差说的是,“你量的或猜的总是偏高(或偏低)吗”

文章来源:https://blog.csdn.net/weixin_43837522/article/details/135820176
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。