在本文的范围内;
1.总体和抽样概念
2. 变量的类型
3. 量表的类型
4. 集中趋势的测量
5、集中分散措施
我将介绍对数据科学家来说很重要的基本统计概念,例如:祝您阅读愉快。
????????从数据科学家的角度来看,
????????人口(主要人口);这是关于要处理的主题的具有共同特征的所有观察结果。定义总体的指标(平均值、中位数等)称为参数。
????????样本;?它是将用于数据科学研究的人群的子集。描述样本的指标(平均值、中位数等)称为统计数据。
????????从总体中选择样本的过程称为抽样。
Sampling Methods | Types, Techniques & Examples
????????当今世界数据的快速增长是不争的事实。既然如此,在数据科学过程中对人群进行研究几乎是不可能的。即使在大数据项目中,也会对样本进行分析,建立模型并获得总体推断。
????????从总体中选择的样本必须能够代表总体,这一点非常重要,这样才能使分析和推论可靠且无偏见。因此,开发了不同的采样方法。其中一些方法是:
????????简单随机抽样:在这种方法中,所有观察结果都有相同的机会。
????????分层抽样:将总体分为几层,每层按照其在总体中的权重比例进行简单随机抽样。
????????聚类抽样:选择不是根据观察结果而是根据它们所连接的聚类进行选择。
????????不同观察结果之间存在差异的特征称为“变量”。变量根据其结构分为数值(定量)和分类(定性)两种。
????????数值变量:这些变量可以用数字和数量来解释。例如;?身高、体重、年龄、成功分数……等。我们可以测量数值变量之间的差异。
????????分类变量:这些是可以分类的变量。例如;?性别(男孩女孩)、肤色、国家/地区……等。我们无法衡量分类变量之间的差异,但我们可以观察到存在差异。
分类变量的量表类型:名义变量和序数变量
数值变量的尺度类型:范围和比率
标称:
序数:
十二月:
奥兰:
集中趋势的度量是总结数据集的统计数据。当我们有各种值并且我们想用单个值汇总这些值时使用它。
例如;?我们有一个班级学生数学考试的成绩,校长询问班级的情况,我们不用一一统计每个人的成绩,而是用一个值来总结所有成绩,用平均值来总结集中趋势测量并表示班级的平均数学成绩为 75。
平均的 :
它是系列中数字的总和除以系列中元素的数量所获得的值。平均值受到异常值的影响,因此不稳健。
中位数:
它是数据集从小到大排序的中间值。如果数据集中有偶数个元素,则通过取中间两个值的平均值来找到中位数。
与均值不同,中值不依赖于数据集中的所有值。因此,异常值对中位数的影响较小。
在正态分布的数据中,均值和中位数彼此靠近地位于中间。
在偏态分布的数据中,均值会受到异常值的影响并接近它们。
模组:
它是数据集中最常观察到的值。对于分类变量,它是条形图中最长的值。在连续变量中,可以将其确定为概率分布的峰值。
何时使用哪一个?
????????集中趋势的测量并不总是足以解释数据集。还需要显示观测单元彼此之间距离的测量,称为“中心分散测量”。
????????例如,在下面的图表中,我们看到两个数据集具有相同的平均值但分布不同。仅根据平均值来解释这两个数据集是不正确的。
????????它是一系列中最大值和最小值之间的差。(范围=最大-最小)
????????它是排序数据集的中间一半。计算方法是用第三季度减去第一季度。(IQR = Q3 — Q1)
????????标准差是对平均值偏差的一般衡量。
????????在标准正态分布中,68% 的数据落在平均值的一个标准差范围内。
????????方差只是标准差的平方。换句话说,它是与平均值的偏差的平方的平均值。
????????偏度是分布偏离正态分布程度的度量,由“皮尔逊偏度系数”计算:
????????平坦度是平坦度或尖度的度量。
????????在本文中,我们从基本概念的层面介绍了构成数据科学基础的统计学。请参阅其他文章,我将讨论在数据科学中更为重要的统计问题。