技术学习|CDA level I 描述性统计分析（数据的描述性统计分析）

发布时间：2024年01月04日

技术学习|CDA level I 描述性统计分析（数据的描述性统计分析）

数据的描述性统计分析常从数据的集中趋势、离散程度和分布形态3个方面进行。

一、集中趋势

集中趋势是指数据向其中心值靠拢的趋势。测量数据的集中趋势，主要是寻找其中心值。对不同的数据有不同的测量方法（低级数据的方法，高级数据可以用；高级数据的方法，低级数据不可以用）。

1、分类数据的集中趋势的描述

众数：一组数据中，出现次数最多的数，符号记为M。

性质：①不受极端值的影响。极端值是指一组数据中，偏离数据平均水平的值，分为极大值和极小值两种，众数只与数据的次数有关，与数据的大小无关，故众数不受极端值的影响。不受极端影响的特性使得众数可以适用于有极端值的数据分析中；②不唯一性。很多数据是可以计算众数的，但有些数据中，每个数据出现的频数均相同，即无法确定某个数据出现的次数最多，故不存在众数；有的数据中可能会出现多个数据的频数都最大，即出现了多个众数。

2、顺序数据的集中趋势的描述

分位数：将一组数据排序后，将数据进行等分分割，在这些分割点位置上的数。由于分位数的计算需要以数据排序为前提，因此要求数据至少可以排序，即至少为顺序数据才可以计算。

(1)二分位数

二分位数也称"中位数"，是指将一组数据排序后，处于正中间位置上的数，符号记为M_e。假设数据总个数为n，则中位数的位置公式如下：
$M_e的位置=\frac{n+1}{2}$
性质：①不受极端值的影响。顺序数据只与数据的位置有关，故中位数不受极端值的影响。不受极端值影响的特性也使得中位数常可以适用于有极端值的数据分析中；②一组数据中所有数据与其中位数的离差绝对值之和是最小的。即
$\sum|x_i-M_e|=min$
这一性质使得中位数在绝对值损失函数中被广泛应用。

离差绝对值之和即距离之和。

(2)四分位数

将一组数据分成四等分，需要3个数，正中间的数被命名为"中位数"、靠小的那个数据称为"下四分位数"、靠大的那个数称为"上四分位数"。即将一组数据从小到大排序后，将处于1/4位置上的数称为"下四分位数"，符号记为Q_L；将处于3/4位置上的数称为"上四分位数"，符号记为Q_U，假设数据的总个数为n，则Q_L的位置=n/4，Q_U的位置=3n/4。

四分位数的位置有多种定义：

①一种类似于中位数的计算公式：
$Q_L的位置=\frac{n+1}{4}，Q_U的位置=\frac{3(n+1)}{4}$
②以中位数为中心，分别向两端计算两部分的中位数，即可得到下四分位数和上四分位数。
$Q_L的位置=\frac{1+(\frac{n+1}{2})}{2}=\frac{n+3}{4}，Q_U的位置=\frac{(\frac{n+1}{2}+n)}{2}=\frac{3n+1}{4}$
Excel中采用的是这种公式。

该公式还可以理解为从第1个数到第n个数，中间有n-1个距离，故从距离角度上看：
$Q_L的位置=1+\frac{1*(n-1)}{4},Q_U的位置=1+\frac{3*(n-1)}{4}$
③将②中的中位数位置取整，得到
$Q_L的位置=\frac{1+\left[\frac{n+1}{2}\right]}{2},Q_U的位置=\frac{\left[\frac{n+1}{2}\right]+n}{2},这里的\left[\frac{n+1}{2}\right]表示\frac{n+1}{2}的取整，\\可以向上取整、也可以向下取整，但常用向下取整。$
④等距离的简化公式
$Q_L的位置=\frac{n-1}{4},Q_U的位置=\frac{3*(n-1)}{4}$
⑤一种较为简便的计算公式
$Q_L的位置=\frac{n}{4}，Q_U的位置=\frac{3n}{4}$
如数据为1,5,9,10,10,12,13,18,20，数据个数n=9，则Q_L的位置=9/4=2.25，Q_U的位置=3x9/4=6.75，故Q_L=5+(9-5)*0.25=6，Q_U=12+(13-12)*0.75=12.75。

3、数值数据的集中趋势的描述

平均数(Average)也称均值(Mean)、期望(Expect)，其中常见的平均数有算数平均数、调和平均数、几何平均数、平方平均数。

(1)算数平均数

算术平均数是指数据之和与数据个数之比，常用符号X?表示。根据所给数据是否分组，算数平均数分为简单算数平均数和加权算数平均数。

未分组数据，简单算数平均数：
$\bar X=\frac{x_1+x_2+···x_n}{n}=\frac{\sum_{i=1}^nx_i}{n}$
分组数据，加权算数平均数：
$\bar X=\frac{M_1f_1+M_2f_2+···M_kf_k}{f_1+f_2+···+f_k}=\frac{\sum_{i=1}^kM_if_i}{n}$
这里所有数据被分为k个组；M_i为各组数据值，若分组值为区间，则选用区间中值M_i代表这组数据的所有数据，各组数据的频数分别为f_i。组中值=(组上限+组下限)/2。

已知下限的开口组组中值=下限+邻组组距/2；已知上限的开口组组中值=上限-邻组组距/2。

性质：①是最常用的平均数。在数据分析中，如没有特殊规定，默认使用算数平均数；②易受极端值的影响。原因是在算术平均数的计算过程中，每个数据都参与计算。易受极端值影响使得算术平均数在有极端值的数据分析中使用效果较差；③各数据与算数平均数的离差之和等于0。在数据分析中，将X?看做是一组数据的重心点；④各数据与算术平均数的离差平方和是最小的。因此算数平均数在平方损失函数中被广泛应用。

(2)调和平均数

调和平均数是指数据倒数的算术平均数的倒数，用符号H表示。（上下坡的速度，求平均速度）。根据所给数据是否分组，调和平均数分为简单调和平均数和加权调和平均数。

未分组数据，简单调和平均数计算公式。
$H=\frac{1}{\frac{\frac{1}{x_1}+\frac{1}{x_2}+···+\frac{1}{x_n}}{n}}=\frac{n}{\frac{1}{x_1}+\frac{1}{x_2}+···+\frac{1}{x_n}}=\frac{n}{\sum_{i=1}^n\frac{1}{x_i}}$
分组数据，加权调和平均数计算公式
$H=\frac{1}{\frac{\frac{1}{M_1}f_1+\frac{1}{M_2}f_2+···+\frac{1}{M_k}f_k}{f_1+f_2+···+f_k}}=\frac{n}{\frac{f_1}{M_1}+\frac{f_2}{M_2}+···+\frac{f_k}{M_k}}=\frac{n}{\sum_{i=1}^k\frac{f_i}{M_i}}$
这里所有数据被分为k个组；M_i为各组数据值，若分组值为区间，则选用区间组中值M_i代表这组数据的所有数据；各组数据的频数分别为f_i。

性质：①常用与效率问题的研究；②易受极端值的影响，与算数平均数类似，在计算过程中，每个数据都参与了计算。

(3)几何平均数

几何平均数是指数据乘积的个数平方根，常用符号G表示。根据所给数据是否分组，几何平均数分为简单几何平均数和加权几何平均数。

未分组数据，简单结合平均数
$G=\sqrt[n]{x_1*x_2*···*x_n}=\sqrt[n]{\prod_{i=1}^nx_i}$
分组数据，加权几何平均数
$G=\sqrt[f_1+f_2+···+f_k]{M_1^{f_1}*M_2^{f_2}*···*M_k^{f_k}}\quad\quad\quad=\sqrt[n]{\prod_{i=1}^kM_i^{f_i}}$
这里所有数据被分为k个组；M_i为各组数据值，若分组值为区间，则选用区间组中值M_i代表这组数据的所有数据；各组数据的频数分别为f_i。

性质：①常用语比率问题的研究，如研究平均发展速度、平均增长速度等；②也会受到极端值的影响，但影响微弱。

(4)平方平均数

平方平均数是指数据平方的算术平均数的算术平方根，常用符号Q表示。根据所给数据是否分组，平方平均数分为简单平方平均数和加权平方平均数。

未分组数据，简单平方平均数：
$Q=\sqrt{\frac{x_1^2+x_2^2+···+x_n^2}{n}}=\sqrt{\frac{\sum_{i=1}^nx_i^2}{n}}$
分组数据，加权平方平均数
$Q=\sqrt{\frac{M_1^2f_1+M_2^2f_2+···+M_k^2f_k}{f_1+f_2+···+f_k}}=\sqrt{\frac{\sum_{i=1}^kM_i^2f_i}{n}}$
这里所有数据被分为k个组；M_i为各组数据值；若分组值为区间，则选用区间组中值M_i代表这组数据的所有数据；各组数据的频数分别为f_i。

性质：①常用于长度问题、距离问题的研究，如研究向量长度、空间中点与点的距离等；②也容易受到极端值的影响。

算数平均数、调和平均数、几何平均数、平方平均数均为平均数的不同形式，对于同一组数据（要求正数），四者之间恒成立的关系如下。

平方平均数>=算数平均数>=几何平均数>=调和平均数

算数平均数、调和平均数、几何平均数、平方平均数受极端值的影响程度是不同的。其受影响程度从大到小依次为：平方平均数、算数平均数、几何平均数、调和平均数。

对于有极端值的数据，如果需要重点考察极大值的影响，可以使用平方平均数或算数平均数；如果需要重点考察极小值的影响，可以使用调和平均数；如果想要计算最精确的结果，可以使用几何平均数。

二、离散程度

集中趋势度量数据向其中心值靠拢的趋势，而离散程度度量数据偏离其中心值的程度，故离散程度与集中趋势的中心值有关，且如果数据离散程度越大，说明数据偏离其中心值越多，中心值的代表性越差。

1、分类数据的离散程度

分类数据的离散程度有一个常用指标——异众比率。异中比率是指在一组数据中，非众数的频数占总数据个数的比重。

异众比率性质：不受极端值的影响；一组数据异众比率越大，众数的代表性越差

2、顺序数据的离散程度

(1)极差

极差，也称范围，等于一组数据的最大值与最小值之差。

性质：①极差是离散程度最简单的测量方法，但极其容易受极端值的影响，因此在实际中较少使用；②极差越大，通常说明数据的范围越大，数据越分散。

(2)四分位差

四分位差等于一组数据的上四分位数与下四分位数之差。

性质：①不受极端值的影响。②四分位差是一个局部指标，其衡量了处于中间50%的数据的离散程度，四分位差越大，说明处于中间50%的数据越分散。

3、数值数据的离散程度

(1)平均差

平均差是指数据与其算术平均数离差的绝对值的算术平均数，符号记为M_d。

根据未分组数据计算的平均差为简单平均差，根据分组数据计算的平均差为加权平均差。

未分组数据，简单平均差：
$M_d=\frac{\sum_{i=1}^n\left|x_i-\bar x\right|}{n}$
分组数据，加权平均差：
$M_d=\frac{\sum_{i=1}^k\left|M_i-\bar x\right|*f_i}{n}$
这里所有数据被分为k个组；M_i为各组数据值，若分组值为区间，则选用区间组中值M_i代表这组数据的所有数据；各组数据的频数分别为f_i。

性质：①能全面测量数据离散程度，平均差越大，数据越分散；②容易受极端值的影响；③在绝对值损失函数中用到的就是平均差；④平均差的计算需要用到绝对值，导致其数学性质较差，从而在实际中较少使用。

(2)方差、标准差

方差：在平均值的计算中把绝对值改成平方。方差是数据与其算术平均数离差的平方的算数平均数，方差的算数平方根是标准差。

根据总体数据计算的方差为总体方差（符号记作σ²，对应的标准差为总体标准差，符号记作σ），根据样本数据计算的方差为样本方差（符号记作s²，对应的标准差为样本标准差，符号记作s）

[1]总体方差、总体标准差

未分组数据，简单总体方差：
$\sigma^2=\frac{\sum_{i=1}^N(x_i-\mu)^2}{N}$
未分组数据，简单总体标准差：
$\sigma=\sqrt{\frac{\sum_{i=1}^N(x_i-\mu)^2}{N}}$
总体均值用符号μ表示，总体数据个数用符号N表示。

分组数据，加权总体方差：
$\sigma^2=\frac{\sum_{i=1}^k(M_i-\mu)^2*f_i}{N}$
分组数据，加权总体标准差
$\sigma=\sqrt{\frac{\sum_{i=1}^k(M_i-\mu)^2*f_i}{N}}$
这里所有数据被分为k个组，M_i为各组数据值，各分组值为区间，则选用区间组中值M_i代表这组数据的所有数据；各组数据的频数分别为f_i。

[2]样本方差、样本标准差

未分组数据，简单样本方差：
$s^2=\frac{\sum_{i=1}^n(x_i-\bar x)^2}{n-1}$
未分组数据，简单样本标准差：
$s=\sqrt{\frac{\sum_{i=1}^n(x_i-\bar x)^2}{n-1}}$
样本均值用符号X?，样本数据个数用符号n。

分组数据，加权样本方差：
$s^2=\frac{\sum_{i=1}^k(M_i-\bar x)^2*f_i}{n-1}$
分组数据，加权样本标准差：
$s=\sqrt{\frac{\sum_{i=1}^k(M_i-\bar x)^2*f_i}{n-1}}$
这里所有数据被分为k个组；M_i为各组数据值，若分组值为区间，则选用区间组中值M_i代表这组数据的所有数据；各组数据的频数分别为f_i。

需要注意：在计算样本方差、样本标准差时，分母需要用n-1，而不是n，这涉及"样本数据的自由度"(自由度通常可以简单地理解为在研究问题中，可以自由独立取值的数据和变量。样本数据的自由度是指在一组样本数据中，能自由取值的数据的个数。)样本方差计算中，用到样本均值X?，作为约束条件使得n个数据在实际取值时，只有n-1个数据是自由变化的，故自由度为n-1。自由度常可以使用"数据总数-不等价约束条件的个数"来确定。只有样本数据才有自由度，总体数据均为自由变化的，故分母不需要减1。

在未特殊说明下，默认为计算样本方差、样本标准差。

性质：①方差、标准差越大，数据越分散；②也会受极端值的影响；③在平方损失函数中用到的就是方差。

(3)离散系数

离散系数也称为变异系数，根据平均差计算的离散系数也称平均差系数，根据标准差计算的离散系数也称标准差系数。实际中常用标准差系数，由标准差除以算术平均数得到。
$离散系数（标准差系数）=\frac{标准差}{算数平均数}$
性质：①测量了数据的相对离散程度，常用语不同组数据离散程度的比较；②可以消除数据水平不同和数据计量单位不同对数据离散程度的影响。（两组不同数据，不能直接通过比较方差、标准差来判断离散程度，需要对离散系数进一步分析）

三、分布形态的描述

把数据分布的偏斜程度称为偏态，把数据分布的尖峰扁平程度称为峰态。

1、偏态

偏态是指数据分布的偏斜程度。衡量了数据的对称性情况（只讨论单峰的情况）。偏态可以用系数（符号记作SK）来测量，计算方法很多，常用如下两种。

方法一：比较众数和平均数
$SK=\frac{平均数-众数}{标准差}$
若平均数大于众数，则SK为正，故称正偏；若平均数等于众数，则SK为0，故称无偏（对称）；若平均数小于众数，则SK为负，故称负偏。

方法二：Pearson偏态系数计算法（Excel中采用此计算法）

未分组数据：
$SK=\frac{n\sum_{i=1}^n(x_i-\bar x)^3}{(n-1)(n-2)s^3}，式中，s为样本标准差$
分组数据：
$SK=\frac{\sum_{i=1}^k(M_i-\bar x)^3*f_i}{ns^3}$
这里所有数据被分为k个组；M_i为各组数据值，若分组值为区间，则选用区间组中值M_i代表这组数据的所有数据，各组数据的频数分别为f_i。n为总数。

性质：①SK=0时对称分布；SK>0时正偏分布，由于此时分布的尾巴在右侧，故又称右偏分布；SK<0时负偏分布，由于此时分布的尾巴在左侧，故又称左偏分布；②实际中，常根据偏态系数的大小判断偏态的程度：0<|SK|<=0.5为低度偏态；0.5<|SK|<=1为中等偏态；|SK|>1为高度偏态。

在这里插入图片描述

在不同偏态中，众数（M₀）、中位数（M_e）、算数平均数（X?）的大小关系：

①在对称分布中，众数在峰值点取得，中位数在正中间，也在峰值点，算数平均数是重心点，故也在峰值点，所以在对称分布中：众数(M₀)=中位数(M_e)=算数平均数(X?)；②在左偏分布中，众数作为峰值点，取值最大，众数左边的数据比右边的数据多，故中位数在众数左边，由于左偏分布在左边有极小值，极小值不影响中位数的大小，但影响算术平均数的大小，会将算数平均数变小（假设极小值对算术平均数的影响显著），故左偏分布中，众数(M₀)>中位数(M_e)>算数平均数(X?)；③右偏分布中，与左偏分布相反，众数(M₀)<中位数(M_e)<算数平均数(X?)。故，众数(M₀)和中位数(M_e)常可以在数据分布偏斜程度较大时应用，算数平均数(X?)常在数据对称分布或接近对称分布时应用。

2、峰态

峰态是指数据分布的尖峰扁平程度。衡量了数据相对于标准正态分布的尖峰扁平情况（只讨论单峰情况）。峰态可以用峰态函数(符号记为K)来测量。这里是基于中心距的峰态系数（Excel中采用的计算方法）

未分组数据：
$K=\frac{n(n+1)\sum_{i=1}^n(x_i-\bar x)^4-3\left[\sum_{i=1}^n(x_i-\bar x)^2\right]^2(n-1)}{(n-1)(n-2)(n-3)s^4}，式中，s为样本标准差$
分组数据：
$K=\frac{\sum_{i=1}^k(M_i-\bar x)^4*f_i}{ns^4}-3$
这里所有数据被分为k个组；M_i为各组数据值，若分组值为区间，则选用区间组中值M_i代表这组数据的所有数据；各组数据的频数分别为f_i。

性质：①K=0时尖峰扁平适中（与标准正态分布近似）；K>0时尖峰分布；K<0时扁平分布；②在峰态系数的计算过程中，若不减3，则计算结果与3比较。
在这里插入图片描述

四、描述性统计图表

1、整理数据的重要工具——统计表

在数据分析中，常用到的统计表是频数分布表，其将杂乱无章的数据按照取值情况进行分组整理，并计算相关指标，从中可以初步看出数据的分布情况。频数分布表常在表的第一列列出类别或组别，第二列统计各类别或组别的频数，并可以进一步计算各类别或组别的频数，对于顺序数据和数据数据，还可以进一步计算累计频数、累计频率等。

对于顺序数据和数值数据，在频数分布表中可以计算数据的累计频数或累计频率，累计从累计方向上可以分为向上累计和向下累计。其中向上累计表示数据从开始一方（差的、小的）往最后一方（好的、大的）累计，向下累计表述数据从最后一方（好的、大的）往开始一方（差的、小的）累计。在计算累计频数时，将数据按照从差到好、从小到大的方向排序。

2、展示数据的重要工具——统计图

(1)饼图——常用于结构分析

饼图是将饼（圆形）按照各类别数据在总数据中所占比重进行等分，用于展示各类别比重结构状况，在各饼处可以标注数据的频数或频率情况，对于多个类别的数据，需要添加图例注明图中各部分代表的类别。分类数据、顺序数据和数值数据均可以使用。将饼图改进，中间挖空，得到环形图，环形图可以同时展示多个总体或样本的数据，多个总体或样本的环形图可以进行多总体或样本数据的对比分析。

(2)条形图(柱状图)——常用于对比分析

条形图（柱状图）将数据各类别的频数或频率画出条形（柱形），常将横置的图称为条形图，将竖置的图称为柱形图，通过各条形或柱形的对比，可以明显看出各类别的差异。在各条形或柱形顶端处可以标注数据的频数或频率情况，对于多个总体或样本的数据，需要添加图例注明数据与总体或样本的对应情况。分类数据、顺序数据和数值数据均可以使用条形图（柱形图）。

条形图（柱形图）的各个类别可以任意排序，但如果将各类别按照频数从大到小排序，得到的图称为帕累托图。帕累托图能推出一个著名的结论——二八法则。

(3)直方图——常用于观察数据的分布形态

直方图是数值数据的图，将数据按照分组情况画出各组的直方，通过观察直方的变化情况，可以初步确定数据的分布形态。

直方图与柱形图很像，区别在于柱形图是分类数据的方法，其横轴为类别轴，各类别之间无固定顺序，故各类别间需要间隔开；而直方图是数值数据的方法，其横轴为数轴，需要按照数轴的顺序排列，且数据要求连续，故各直方中间无间隔。

(4)箱线图——常用于观察数据分布特征

箱线图（也称作盒须图）由一个箱子、两条线构成，可以横置也可以竖置（通常采用竖置的箱线图）。竖置时上面一条线的顶端表示该组数据的最大值，下面一条线的低端表示该组数据的最小值，中间的箱子上端为该组数据的上四分位数，下端为该组数据的下四分位数，箱子的中间有一条横线表示该组数据的中位数。由于箱线图由数据的最小值、最大值、上四分位数、下四分位数、中位数5个指标构成，因此在实际数据分析中箱线图常用于观察数据分布特征。

由于箱线图中最大值和最小值可能是极端值，为避免极端值影响数据分布特征的观察，因此在制作箱线图时，常先剔除极端值再制作箱线图。

箱线图的上面一条线的顶端和下面一条线的低端的距离就是极差，可以用来反映极端值之外的数据范围；中间箱子的高度，就是四分位差，可以用来反映处于中间50%数据的分散情况。从中位数的位置可以看出数据的分散情况，若中位数在"上面一条线的顶端和下面一条线的底端"中靠下方，则表明前半数据集中，后半数据分散；反之就是前半数据分散，后半数据集中。若中位数在"箱子的上端和箱子的下端"中靠下方，则表明数据中间一半的数据的前半数据集中，后半数据分散；反之就是数据中间一半的数据的前半数据分散，后半数据集中（竖置的箱线图对应纵轴，靠下方的数据是前半部分的数据）。

股票的K线图，类似于箱线图的实用图。但K线图只有四个指标：最高价、最低价、开盘价、收盘价，其中开盘价和收盘价用箱子表示，箱子两端分别连接最高价和最低价。若开盘价在上，收盘价在下，则表明这只股票当天跌了，整个图用绿色表示；若收盘价在上、开盘价在下，则表明这只股票当天涨了，整个图用红色表示。
在这里插入图片描述

(5)线图

线图是用于描述时间序列数据的常用图。以横轴表示时间、纵轴表示变量值，将各时间的变量值描点，相邻点连线得到的图。通过观察线图的变量值，可以清晰地看出变量的变化情况。

(6)散点图

散点图常用于描述变量间的相关关系，其横轴表示一个变量，纵轴表示另一个变量。根据个体数据在图中描点，得到的图就是散点图。需要注意，散点图的各个散点之间不能连线，这与线图不一样，线图的各点之间有时间顺序，故可以连线，而散点图的各散点之间没有固定的顺序，故不能连线。

统计图和统计表是两个不同的统计工具，统计表的作用是整理数据，统计图的作用是展示数据。因在实际中，有些既像图，又像表，不易区分。故在统计学中规定：统计表的标题放在表上方（表头），统计图的标题放在图下方。此外，在制作统计表和统计图时，规定表的两端不封口，上下用粗线，其他用细线，去掉一些不必要的线，让统计表看起来尽量简洁。当统计表和统计图较多时，可对其进行编号。

文章来源:https://blog.csdn.net/jzyqsj/article/details/135351782
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！