global是加载一个全局宏,把educ(受教育年限)exper(工作经历)exper2(工作经历的平方)tenure(培训)tenure2(培训的平方)作为xvars储存起来;
storage type:数据存储类型,一般分成字符串,浮点等等几种,这个例子里面就是浮点数据;
display format:数据格式,数值型数据一般形式为"%w.d",字符型数据一般为“%#s”。“%”为提示符。数值型的数据格式有三种,e(科学技术格式);f(固定格式);g(一般格式)。案例中变量都是数值型数据,所以%9.0g表示的就是:变量的整个显示宽度为9个字符,小数点后保留0位的一般显示格式。
value label:变量取值
variable label:变量标签,也就是说,这个变量代表了什么意思。比如第一个lnwage,表示对数化的小时工资;其他解释类推。
下面就是做回归模型。
第一个模型是一般最小二乘,ols,然后,estimate store 是保存模型结果,“ols”是模型名称,并非真正代表OLS最小二乘法,下面几个模型的命名也是这个道理。因变量是小时工资,自变量是体重指数,另,$xvars表示宏(global加载的变量)全部其他变量作为自变量。模型解释楼主应该明白。
第二个模型是工具变量回归,中间加上了ivreg,以及2sls,两阶段最小二乘,括号里的就是工具变量。这里的工具变量是父亲和母亲的体重指数。然后,自变量再加上宏定义的那个xvars。
因变量也是小时工资。保存模型,命名为tsls,这个命名看自己习惯,没有固定要求,但不能以数字开头。predict u_tsls ,resid 就是保留残差。
整个模型就是探讨工具变量之下的小时工资的影响。然后预测残差。
第三个模型,因变量是体重指数,自变量是xvars,父母的体重指数。做ols,然后预测残差。模型意图就是探讨除了工资之外哪些因素影响了体重指数。
下面,testparm,测试Samba的设置是否正确无误。testparm(test parameter)。在这里就是探讨父母的体重指数是否为零,做一个F检验,虚无假设是二者各自等于零。Prob>F = 0.0000 ,是说检验结果显著,二者都不为零,也就是说作为工具变量至少是“不弱”的。
第四个模型,reg u_tsls $xvars lnbmi_dad lnbmi_mom,对于第二个模型(加入工具变量的完整模型)所产生的采茶进行回归分析,这又叫做残差回归,分析各个因素对完整模型残差的影响,有无遗漏变量。然后再保留模型结果。
最后的estimate table 就是输出这四个模型的结果。
ols中显著地因素有哪些,然后tsls有哪些,aux1有哪些。
值得注意的就是aux2全部变量不显著,说明残差回归中所有因素都与误差项“e”没有显著地关系,而且确定系数R2也非常小,也就是排除了遗漏变量的问题。
其他解释,如显著度什么的,这些比较简单了,而且要根据自己的假设对于分析结果进行解释。
表最后的模型是对于对数化的小时工资做的回归,OLS,没有工具变量,然后,加上对于体重指数的影响因素这个模型的残差,也就是看体重影响因素之外的哪些遗漏因素对于工资的影响。
最后的testparm同样是检验模型三有无显著影响,F检验发现在0.05的水平之下是显著的,这样,模型三的残差是有影响的。应该纳入回归方程。
最后:这个模型没有进一步的分析材料,没法断言它的结果。但楼主这位朋友做的分析挺不错的,还是要赞一个的。
|