Stata命令的语法格式为:
[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [using filename] [, options]
[ ]表示可以省略或者根据需要使用的选项,只有command是必不可少的,对于其他各个组成部分,用户都可以根据自身研究的需要合理选用。
command为命令中的命令名称。
varlist为命令中的变量列表,可以设置一个或者多个变量,多个变量之间要用空格分隔开。
by varlist是按照变量值分类操作的命令,表示对变量分类的子集分别执行相应的操作。
=exp用来统一改变原有变量的值或生成新变量替换原变量,主要包括 generate和 replace两个命令。
if exp(条件表达式)用于对样本集进行筛选,只对符合相关条件的样本子集执行相应的操作。
in range同样用于对样本集进行筛选,与条件表达式的区别在于不依赖变量是否符合某一条件,而是直接使用范围内的样本观测值,对筛选出的样本执行相应的操作。
weight的作用在于对样本观测值进行加权,通常用于加权最小二乘回归分析。
options可以在很多命令中使用,不同命令之间的差异比较大。
Stata的命令是区分字母大小写的,大小写不能混用,否则就会提示错误。
Stata作为一种数据分析软件,高度适用于依托计量经济学的研究领域,如宏观经济学、财政学等,当然在医学等学科应用也较为广泛,在处理面板数据方面也深具特色。计量经济学是指运用概率统计方法对经济变量之间的因果关系进行定量分析的科学。相对于一般的统计学,计量经济学虽然同样依托概率统计方法,但其特色体现在三个方面:
一是往往关注变量之间的因果关系而非相关关系。相关关系是指变量A与B之间是否有一定的关联性,在相关关系中A和B的地位是完全相同的,即A与B相关就等价于B与A相关;因果关系是指变量A与B之间的影响与被影响、解释与被解释的关系,在因果关系中A与B的地位是完全不一样的,A影响(解释)了B,和B影响(解释)了A完全不同;计量经济学作为经济学的分支,关注的是经济变量之间的因果关系。而因果关系的建立,依据的是经济理论而非数据本身,比如我们研究数字普惠金融发展对上市公司影子银行化的影响问题,因为有经济理论可以解释,数字普惠金融发展提升了中小微企业通过正规渠道获得贷款的可能性,从而不再需要来自供应链上上市公司的商业信用,进而减少了上市公司配置更多非流动性金融资产、产生影子银行化的问题。
二是往往基于真实的经济变量数据,而非通过问卷调查获取的数据。虽然也是一种基于样本推断总体的概念,但是样本是受到限制的,比如研究中国历年通货膨胀率和失业率之间的关系,那么通货膨胀率的数据和失业率的数据都是国家统计局公布的、而且只能按年份去获取而无法通过不断随机抽样获取更多,而如果我们研究其他领域,比如工商管理领域中“员工成就动机对主动工作行为的影响”,那么其实可以通过增加随机抽样的方式去获取更多的样本。
三是往往对因果关系的关注高于对模型预测能力的关注。在构建的回归模型中,往往更关注的是核心解释变量的正负号、大小以及显著性P值,分别用于衡量核心解释变量对被解释变量的影响方向、影响程度大小以及这种影响是否具有统计显著性,而不是模型整体对于因变量预测能力的评价。比如上市公司影子银行化除受到数字普惠金融发展影响外,还同时受到很多其他因素的影响,那么计量经济学关注的是通过构建模型观察“数字普惠金融发展”这一核心解释变量对“上市公司影子银行化”的影响,而非实现基于“数字普惠金融发展”对“上市公司影子银行化”的预测,从模型的角度来看,就是关注系数β而非拟合优度R方。
关于学习Stata与计量经济学的问题,如果大家只是为了写论文,而不是专门的计量经济学专业、研究计量理论方法的,推荐学习路径如下:如果是新手可以先学习这本书《Stata统计分析从入门到精通》 杨维忠、张甜 清华大学出版社。
2022年新书,山东大学陈强教授作序推荐。
本书专为计量经济学基础薄弱或学不进去,但又有写论文的读者入门所设计,注重应用,较少数学推导。边看书边操作,学的差不多了以后,再多看你目标研究领域的高质量的研究文献,看看人家用的什么方法,比如政策效应检验、结构方程模型等等,再针对性的学习那些相对较难、比较专业的方法就可以(到了那个阶段和层次,基本就可以通过看文献自学了;而针对一些前沿的方法或者要更加系统的学习,参加陈强老师的培训班也是一个很好的选择)。
创作不易,恳请多多点赞,欢迎大家多多关注我,一起学习Stata/SPSS/Python,感谢大家的厚爱支持!