统计学至关重要,相信我们每一个人都有所耳闻!但是统计学具体运用在什么方面?我们又应该怎么学?本章将带你探索 Python 中的统计学基础概念和工具。通过深入的示例和逐步学习,你将掌握如何处理数据、进行可视化和进行统计分析,从而更好地理解数据并做出数据驱动的决策。立即启程,让 Python 成为你统计学学习之旅的得力伙伴!
1.定义和范畴:
2.用途:
3. 方法:
同质性和多维数组:
术语区分:
数据总结:
数据收集原则:
4.与其他领域的交叉
面向单细胞RNA测序数据的统计学研究:
历史例子:
1. Organic/Process Data:
有机数据源自自然过程,如金融交易、网络浏览活动、体育赛事和温度监测,通常属于“大数据”范畴。设计采集的数据则包括有针对性的研究,如调查或对提取的推文进行编码分析。
讲座引入了“大数据”一词,强调有机过程生成的大规模数据,需要先进的计算资源进行分析。数据科学家通过挖掘这些数据集来发现趋势和关系,并提到了处理大数据的挑战。
2.Designed Data Collection。
由严格设计的数据采集方法产生的数据。这些研究涉及从人群中抽样(sample)个体或提取和编码特定推文进行分析。设计采集的数据通常规模较小,计算上更易处理。
引入了数据独立且同分布(i.i.d.)的概念:
== i= independent and id = identically distributed==
指出i.i.d.数据对于某些统计程序至关重要,并使分布特征能够得到精确估计。讲座最后讨论了数据不满足i.i.d.条件的情况,列举了一些例子,如考试作弊、性别得分差异和子群体之间的差异。在这些情况下,需要专门的分析程序,强调了在选择适当的统计方法之前了解数据来源的重要性。
重点:
? Need to Ask: Can we can apply procedures that assume i.i.d. data!
? Always consider where data came from!
讲师Mark Rulkowski介绍了不同类型的变量,并根据NHANES数据集中的四个变量进行了说明。NHANES是美国国家卫生和营养检查调查,用于评估美国儿童和成年人的健康和营养状况。
数量变量Quantitative Variables:涵盖了连续量和离散量两个子类。
分类变量Categorical Variables:又称为定性变量,用于将个体或项目分类到不同组。分为有序分类变量和名义分类变量。
注意:
在处理数据时需要考虑变量类型,因为不同类型的变量可能需要不同的数据摘要和视角。这对后续的统计分析和数据解释至关重要。
Categorical Ordinal: The variable represents categories or groups (adult or not adult).
Would imply an ordered relationship among categories (e.g., low, medium, high).
Categorical Nominal: There is no inherent order or ranking among the categories; they are simply different groups.
Quantitative Continuous: Would represent numeric values that can take any real number within a range.
Quantitative Discrete: Would represent numeric values that are distinct and separate.
观看视频:研究设计的不同类型,探索性与确认性研究、比较性与非比较性研究,以及观察性研究与实验研究的基本概念。
理解研究设计的谱系:了解从数据的探索性分析到高度计划的收集和分析数据的研究设计谱系。
分类研究设计:学习如何分类不同领域的研究设计,包括临床试验、可靠性和质量保证研究、人类健康观察研究、舆论调查、行政数据研究、市场调研和农业实地试验等。
掌握研究设计的基本概念:理解探索性研究和确认性研究的区别,以及比较性研究和非比较性研究的特点。同时,深入了解观察性研究和实验研究的基本概念,包括自我选择和实验者干预等。
Experiments:often involve random assignment of subjects to "treatment arms”.治疗分组
Observational Studies:often say subjects are "exposed to a condition rather than being “assigned”(passive or self-selected, used when impractical or unethical to assign)
关注实例和案例研究:比如比较不同施肥条件下橙子产量、观察吸烟对寿命或肺癌状态的影响等。这有助于将理论知识与实际情境联系起来。
学习关于研究中的偏见bias和权力分析Power analysis:measurements are off-target偏离目标 + sample is not representative/ study design- yield result;