tag 标签: 回归分析经管大学堂:名校名师名课

相关帖子

版块 作者 回复/查看 最后发表
统计论文遇到的问题,求指教,谢谢大家 中国人民大学统计学院 u09610130 2013-5-7 9 7984 lengbi1986 2020-5-12 18:03:17
回归分析中t-Statistic数值的合理取值范围是多少? EViews专版 guanliwang 2013-4-26 8 44279 584755486 2019-8-29 22:46:09
Koenker(2005,BOOK)Quantile_regression.pdf attachment 数据交流中心 cityherd 2013-4-21 2 7522 tianwk 2019-3-16 22:31:35
为什么用SPSS做回归分析和AMOS路径分析的结果不一致? SPSS论坛 zhdjhrm 2013-1-31 14 14759 lovefox111 2018-2-1 09:38:30
求指教。SPSS多元线性回归中,分类变量处理问题 SPSS论坛 骄傲的小矮人 2013-3-7 4 13809 zsxunlei2006 2017-8-29 11:33:05
做岭回归分析是遇到的错误,请教高手!! attach_img EViews专版 期望效应 2013-7-25 2 6839 farer0160 2017-4-28 08:10:21
关于多元回归分析的一些问题 SPSS论坛 _burning 2013-6-24 2 7264 moretc 2015-4-11 15:23:25
关于多元回归分析的样本量 爱问频道 紫云金沙 2013-3-14 6 6793 linda-li 2014-3-26 10:41:44
【独家发布】回归分析在SAS中的应用 attachment SAS专版 663973866 2013-5-23 7 6895 cjwtdby 2014-3-6 09:25:55
统计学入门 经济类软件专区 jerker 2013-3-31 2 1371 goldbaodi 2013-11-29 12:29:18
求推荐一个简单易学的回归分析软件 计量经济学与统计软件 那西 2013-8-28 5 3382 那西 2013-8-28 10:38:15
请教一个把数据log的问题 SAS专版 amadeus123 2013-6-23 1 864 傻瓜1 2013-7-5 00:43:01
多元多重回归分析 attachment 爱问频道 背着棺材流浪 2013-5-22 1 6446 军少 2013-5-25 10:16:21
请教关于minitab逐步回归 attachment 爱问频道 liuerbai 2013-5-13 1 3415 liuerbai 2013-5-13 08:26:26
SPSS统计软件逐步回归分析:消费者各感知(风险、有用、易用)对消费行为的影响 attach_img SPSS论坛 猪头最 2013-4-20 1 3111 大大大大大葫芦 2013-4-28 01:10:31
悬赏 回归分析的局限性怎么处理,急! - [悬赏 100 个论坛币] SPSS论坛 minihawk 2013-4-8 3 2974 zkymath 2013-4-9 12:56:54
悬赏 STATA 新手紧急求助 fixed effect variables 怎么设定 - [悬赏 30 个论坛币] Stata专版 小或大魔王 2013-3-18 1 937 jacquiline 2013-3-19 08:33:29
悬赏 求:《统计回归分析:回归方程引论》作者陈乃辉 - [悬赏 55 个论坛币] 悬赏大厅 喋喋叨叨 2013-3-1 1 7289 gaoxiang13149 2013-3-2 13:57:07
【SPSS】实证课程简介,搞定实证分析必修! SPSS论坛 AUGUST麦芽糖 2013-3-6 567 38711 诵经的和尚 2011-3-31 21:10:16

相关日志

分享 交乘项专题: 主效应项可以忽略吗?
arlionn 2019-8-7 21:55
  作者:胡雨霄 (伦敦政治经济学院)   Stata 连享会: 知乎 | 简书 | 码云 | CSDN   Source: WHAT HAPPENS IF YOU OMIT THE MAIN EFFECT IN A REGRESSION MODEL WITH AN INTERACTION? | STATA FAQ Stata连享会 计量专题 || 精品课程 || 推文集锦 点击查看完整推文列表   连享会计量方法专题……   对于一个带交乘项 (interaction term) 的线性回归,我们一般会通过命令 regress y x1 x2 x1 #x2 来进行回归分析。该回归不仅包括交乘项 ( x1#x2 ) 而且保留了主效应 ( x1 x2 )。本篇推文讨论的问题是, 当引入交乘项后,保留全部的主效应项是否必要?忽略一个或者全部的主效应项是否可行? 对于该问题,首先要明确引入主效应项和交乘项的目的何在。引入主效应项是为了区分截距,而引入交乘项是为了区分斜率。在接下来的分析中,我们会进一步阐述这句话背后的具体含义。 基于此,对于该问题的回答应为“分情况讨论”。 类别变量相互交乘:可以去掉主效应项,但系数含义不同。 类别变量与连续型变量相互交乘:(1)可以去掉连续型变量主效应项,但系数含义发生改变;(2)一般情况下,不可以去掉类别变量主效应项 连续型变量与连续型变量相互交乘:一般情况下,不可以去掉主效应项 下面,我们通过几个实证的例子来进一步解释说明。 1. 实例 1:类别变量相互交乘 (categorical by categorical interaction) 首先,导入数据 . use https: / /stats.idre.ucla.edu/stat /data/hsbanova , clear (highschool and beyond ( 200 cases)) . d variable name type format label variable label ----------------------------------------------------------------------------------------------------------------------- id float %9.0g female float %9.0g fl read float %9.0g reading score write float %9.0g writing score math float %9.0g math score science float %9.0g science score socst float %9.0g social studies score honors float %19.0g honlab honors english grp float %9.0g grp ----------------------------------------------------------------------------------------------------------------------- Sorted by: 该数据记录了不同个体的性别信息 ( female ),组别信息 ( grp ),以及不同科目的成绩信息( read , write , math , science , socst , honors ) 。 数据结构如下所示。 . list in 1 / 10 +----------------------------------------------------------------------------+ | id female read write math science socst honors grp | |----------------------------------------------------------------------------| 1 . | 45 female 34 35 41 29 26 not enrolled grp1 | 2 . | 108 male 34 33 41 36 36 not enrolled grp2 | 3 . | 15 male 39 39 44 26 42 not enrolled grp1 | 4 . | 67 male 37 37 42 33 32 not enrolled grp1 | 5 . | 153 male 39 31 40 39 51 not enrolled grp1 | |----------------------------------------------------------------------------| 6 . | 51 female 42 36 42 31 39 not enrolled grp2 | 7 . | 164 male 31 36 46 39 46 not enrolled grp1 | 8 . | 133 male 50 31 40 34 31 not enrolled grp1 | 9 . | 2 female 39 41 33 42 41 not enrolled grp1 | 10 . | 53 male 34 37 46 39 31 not enrolled grp1 | +----------------------------------------------------------------------------+ . 我们将既包含交乘项也包含主效应项的模型成为 “完整模型” (full model)。在这个例子中,我们对类别变量 female 以及类别变量 grp 进行交乘。 完整模型 . regress write i.female ##i.grp Source | SS df MS Number of obs = 200 -------------+---------------------------------- F(7, 192) = 11.05 Model | 5135.17494 7 733.59642 Prob F = 0 . 0000 Residual | 12743.7001 192 66.3734378 R-squared = 0.2872 -------------+---------------------------------- Adj R-squared = 0.2612 Total | 17878.875 199 89.843593 Root MSE = 8.147 ------------------------------------------------------------------------------ write | Coef. Std. Err. t P| t | -------------+---------------------------------------------------------------- female | female | 9.136876 2.311726 3.95 0.000 4.577236 13.69652 | grp | grp2 | 7.31677 2.458951 2.98 0 . 003 2.466743 12.1668 grp3 | 10.10248 2.292658 4.41 0.000 5.580454 14.62452 grp4 | 16.75286 2.525696 6.63 0 . 000 11.77119 21.73453 | female#grp | female #grp2 | -5.029733 3.357123 -1.50 0.136 -11.65131 1.591845 female #grp3 | -3.721697 3.128694 -1.19 0.236 -9.892723 2.449328 female #grp4 | -9.831208 3.374943 -2.91 0.004 -16.48793 -3.174482 | _cons | 41.82609 1.698765 24.62 0 . 000 38.47545 45.17672 ------------------------------------------------------------------------------ 在进行分析之前,我们首先明确各系数的含义。从常数项 ( _cons ) 开始,41.82609 表示组别 1 男性 (female == 0, grp1 == 1) 的写作分数 ( write )。 以此为基准,我们列表分析不同组别不同性别的人群的写作分数。下表按照回归结果,计算了不同组别的男性和女性的写作分数。 以 female == 1, group == 2 为例,group 2 的女性的写作水平为 41.83 + 9.14 + 7.31 - 5.03 = 53.25。 | female | group | _cons | | | | write | |---------| ------- |-------| --------- |---------| --------- |-------| | 0 | 1 | 41.83 | | | | 41.83 | | | | | | | | | | 1 | 1 | | + 9.14 | | | 50.97 | | | | | | | | | | 0 | 2 | | + 7.31 | | | 49.14 | | 0 | 3 | | + 10.10 | | | 51.93 | | 0 | 4 | | + 16.75 | | | 58.58 | | | | | | | | | | 1 | 2 | | + 9.14 | + 7.31 | - 5.03 | 53.25 | | 1 | 3 | | + 9.14 | + 10.10 | - 3.72 | 57.35 | | 1 | 4 | | + 9.14 | + 16.75 | - 9.83 | 57.89 | 我们也可以通过 margins 命令直接得到上述计算结果。 . margins female ##grp ------------------------------------------------------------------------------ | Margin Std. Err. t P| t | -------------+---------------------------------------------------------------- female#grp | male #grp1 | 41.82609 1.698765 24.62 0.000 38.47545 45.17672 male #grp2 | 49.14286 1.777819 27.64 0.000 45.63629 52.64942 male #grp3 | 51.92857 1.539636 33.73 0.000 48.8918 54.96534 male #grp4 | 58.57895 1.869048 31.34 0.000 54.89244 62.26545 female #grp1 | 50.96296 1.567889 32.50 0.000 47.87046 54.05546 female #grp2 | 53.25 1.662997 32.02 0.000 49.96991 56.53009 female #grp3 | 57.34375 1.440198 39.82 0.000 54.50311 60.18439 female #grp4 | 57.88462 1.597756 36.23 0.000 54.73321 61.03602 ----------------------------------------------------------------------- 模型 2:去掉主效应项 female 当去掉主效应项 female 后,回归结果如下所示。 . regress write i.grp i.female #i.grp Source | SS df MS Number of obs = 200 -------------+---------------------------------- F(7, 192) = 11.05 Model | 5135.17494 7 733.59642 Prob F = 0 . 0000 Residual | 12743.7001 192 66.3734378 R-squared = 0.2872 -------------+---------------------------------- Adj R-squared = 0.2612 Total | 17878.875 199 89.843593 Root MSE = 8.147 ------------------------------------------------------------------------------ write | Coef. Std. Err. t P| t | -------------+---------------------------------------------------------------- grp | grp2 | 7.31677 2.458951 2.98 0.003 2.466743 12.1668 grp3 | 10.10248 2.292658 4.41 0 . 000 5.580454 14.62452 grp4 | 16.75286 2.525696 6.63 0.000 11.77119 21.73453 | female #grp | female #grp1 | 9.136876 2.311726 3.95 0.000 4.577236 13.69652 female #grp2 | 4.107143 2.434379 1.69 0.093 -.6944172 8.908703 female #grp3 | 5.415179 2.108234 2.57 0.011 1.256906 9.573452 female #grp4 | -.694332 2.458895 -0.28 0.778 -5.544247 4.155583 | _cons | 41.82609 1.698765 24.62 0 . 000 38.47545 45.17672 ------------------------------------------------------------------------------ 我们可以看到 grp1 grp2 以及 grp3 的回归结果与完整模型是完全一致的。可以直观看到,完整模型的 female 的系数其实和模型 2 的 female#grp1 的系数完全一致。而 female#grp2 的系数其实等于完整模型 female 的系数加上完整模型的 female#grp2 的系数,即 4.10 = 9.13 - 5.03 。 在这种情况下,模型中未引入主效应项的主要影响是重整 Stata 汇报的回归系数。其结果其实和完整模型的回归结果是一致的。Stata 自行发现了被忽略的主效应项,并汇报了 4 个交乘项的结果,而非像完整模型那样汇报 3 个。这样,完整模型的自由度与模型 2 的自由度均为 7。 接下来,我们探讨一个关于 显著性 的问题。完整模型的回归结果中, female#grp3 的 p-value 为 0.236,是不显著的。而当去掉 female 的主效应后, female#grp3 的 p-value 为 0.011, 在 5% 的水平上显著。该如何理解这一系数显著性的变化呢? 在完整模型中, female#grp3 的系数报告的是 group 3 的性别差异与 group 1 的性别差异之差 (across group difference of gender difference)。系数不显著说明,group 3 不同性别成员间的写作水平差异并没有显著高于或者低于 group 1 不同性别成员间的写作水平差异。 female#grp4 的系数为 -9.831,并且在 1% 的水平上显著。这说明,相较于 group 1,group 4 的不同性别成员间的写作水平差异显著低了 9.83。由此推测两种可能结果。第一,group 4 不同性别成员间并无显著写作水平差距。第二,group 4 不同性别成员间虽有显著写作水平差距,但是该差距小于 group 1。 模型 2 也汇报了 female#grp3 的系数,但是却是完全不同的含义。该系数报告的是 group 3 的性别差异 (within group gender difference)。该系数为 5.415,且在 5% 的水平上显著。这说明 group 3 的女性的写作水平比该组男性显著高出 5.415 分。值得注意的是, female#grp4 的系数此时不显著。这说明 group 4 的女性的写作水平与该组男性的写作水平并无显著差异。该结论支持推测的第一种结果。 将两个模型放到一起看,我们关于各组性别差异得到的信息如下。 (1) 组内性别差异 (within-group gender difference) group 1, group 2 以及 group 3 的女性的写作水平显著高于同组男性的写作水平。group 4 各成员的写作水平并不存在性别层面上的显著差异。该信息由模型 2 给出。 (2) 组间性别差异之差 (across-group difference of gender difference) 以 group 1 组内成员写作水平的性别差异为基准,group 2 和 group 3 组内成员写作水平的性别差异并无显著差异。然而,group 4 组内成员写作水平的性别差异显著低于基准组。 模型 3:去掉主效应项 grp . regress write i.female i.female #i.grp Source | SS df MS Number of obs = 200 -------------+---------------------------------- F(7, 192) = 11.05 Model | 5135.17494 7 733.59642 Prob F = 0 . 0000 Residual | 12743.7001 192 66.3734378 R-squared = 0.2872 -------------+---------------------------------- Adj R-squared = 0.2612 Total | 17878.875 199 89.843593 Root MSE = 8.147 ------------------------------------------------------------------------------ write | Coef. Std. Err. t P| t | -------------+---------------------------------------------------------------- female | female | 9.136876 2.311726 3.95 0.000 4.577236 13.69652 | female #grp | male #grp2 | 7.31677 2.458951 2.98 0.003 2.466743 12.1668 male #grp3 | 10.10248 2.292658 4.41 0.000 5.580454 14.62452 male #grp4 | 16.75286 2.525696 6.63 0.000 11.77119 21.73453 female #grp2 | 2.287037 2.285571 1.00 0.318 -2.221015 6.79509 female #grp3 | 6.380787 2.128954 3.00 0.003 2.181646 10.57993 female #grp4 | 6.921652 2.238549 3.09 0.002 2.506347 11.33696 | _cons | 41.82609 1.698765 24.62 0 . 000 38.47545 45.17672 ------------------------------------------------------------------------------ 分析模型 3 的基本思想与模型 2 一致。当去掉 i.group 后,交乘项的含义发生改变, male##grp 和 female##grp * 分别汇报的是 group* 的男性和女性与 group 1 的男性和女性的写作分数差距。换言之,其汇报的是 同性别组间差异 (within-gender across-group difference) 。其经济学含义不难解释。 模型 4:只保留交乘项 . regress write i.female #i.grp Source | SS df MS Number of obs = 200 -------------+---------------------------------- F(7, 192) = 11.05 Model | 5135.17494 7 733.59642 Prob F = 0 . 0000 Residual | 12743.7001 192 66.3734378 R-squared = 0.2872 -------------+---------------------------------- Adj R-squared = 0.2612 Total | 17878.875 199 89.843593 Root MSE = 8.147 ------------------------------------------------------------------------------ write | Coef. Std. Err. t P| t | -------------+---------------------------------------------------------------- female#grp | male #grp2 | 7.31677 2.458951 2.98 0.003 2.466743 12.1668 male #grp3 | 10.10248 2.292658 4.41 0.000 5.580454 14.62452 male #grp4 | 16.75286 2.525696 6.63 0.000 11.77119 21.73453 female #grp1 | 9.136876 2.311726 3.95 0.000 4.577236 13.69652 female #grp2 | 11.42391 2.377259 4.81 0.000 6.735015 16.11281 female #grp3 | 15.51766 2.227099 6.97 0.000 11.12494 19.91039 female #grp4 | 16.05853 2.332086 6.89 0.000 11.45873 20.65833 | _cons | 41.82609 1.698765 24.62 0 . 000 38.47545 45.17672 ------------------------------------------------------------------------------ 当只保留交乘项后,常数项的意义保持不变,其余各项系数分别表示不同组别成员与 group 1 男性成员的写作分数差距。 2. 实例 2:类别变量与连续变量交乘 (categorical by continuous interaction) 完整模型 . regress write i.female ##c.socst Source | SS df MS Number of obs = 200 -------------+---------------------------------- F(3, 196) = 49.26 Model | 7685.43528 3 2561.81176 Prob F = 0 . 0000 Residual | 10193.4397 196 52.0073455 R-squared = 0.4299 -------------+---------------------------------- Adj R-squared = 0.4211 Total | 17878.875 199 89.843593 Root MSE = 7.2116 -------------------------------------------------------------------------------- write | Coef. Std. Err. t P| t | ---------------+---------------------------------------------------------------- female | female | 15.00001 5.09795 2.94 0.004 4.946132 25.05389 socst | . 6247968 . 067070 9 9.32 0 . 000 . 4925236 . 7570701 | female#c.socst | female | -.2047288 .0953726 -2.15 0.033 -.3928171 -.0166405 | _cons | 17.7619 3.554993 5.00 0.000 10.75095 24.77284 -------------------------------------------------------------------------------- 常数项的含义为 socst=0 的男性的写作分数。 socst 的系数,0.625 ,为男性组别 writing 对 socst 做回归的系数。 我们用图形来解释交乘项的含义。如图所示的三条线分别报告了全样本和不同性别的 writing 与 socst 的线性关系。其中,主效应项 i.female 的作用在于 区分不同组别的截距 ,交乘项的作用则在于 允许斜率的改变 。此处,交乘项系数的含义为 Figure 1 交乘项的系数报告了不同组别斜率之差。 其系数为 -0.205,说明女性组别 writing 对 socst 做回归的系数为 0.625 - 0.205 = 0.420。 模型 2:去掉主效应项 c.socst . reg write i.female i.female #c.socst Source | SS df MS Number of obs = 200 -------------+---------------------------------- F(3, 196) = 49.26 Model | 7685.43528 3 2561.81176 Prob F = 0 . 0000 Residual | 10193.4397 196 52.0073455 R-squared = 0.4299 -------------+---------------------------------- Adj R-squared = 0.4211 Total | 17878.875 199 89.843593 Root MSE = 7.2116 -------------------------------------------------------------------------------- write | Coef. Std. Err. t P| t | ---------------+---------------------------------------------------------------- female | female | 15.00001 5.09795 2.94 0.004 4.946132 25.05389 | female #c.socst | male | .6247968 .0670709 9.32 0.000 .4925236 .7570701 female | . 420068 . 067 8044 6.20 0 . 000 . 2863482 . 5537878 | _cons | 17.7619 3.554993 5.00 0 . 000 10.75095 24.77284 -------------------------------------------------------------------------------- 该模型交互项汇报的是男性和女性组别, writing 对 socst 做回归 socst 的系数。我们可以看到,交乘项中, female 的系数与 male 的系数之差正好为完整模型的交互项的系数。 模型 3:去掉主效应项 i.female . reg write socst i.female #c.socst Source | SS df MS Number of obs = 200 -------------+---------------------------------- F(2, 197) = 66.96 Model | 7235.18229 2 3617.59115 Prob F = 0 . 0000 Residual | 10643.6927 197 54.028897 R-squared = 0.4047 -------------+---------------------------------- Adj R-squared = 0.3986 Total | 17878.875 199 89.843593 Root MSE = 7.3504 -------------------------------------------------------------------------------- write | Coef. Std. Err. t P| t | ---------------+---------------------------------------------------------------- socst | . 4903271 . 0500357 9.80 0 . 000 . 3916528 . 5890014 | female#c.socst | female | .0701563 .0195532 3.59 0.000 .0315957 .1087168 | _cons | 25.0561 2.597064 9.65 0.000 19.93449 30.17772 -------------------------------------------------------------------------------- 注意 :这个模型很有可能是错误识别模型(mispecification)。如果要使用该模型,一定要确保研究目标和模型设定的一致性。 上文,我们说过,加入组别变量主效应项的目的在于区分不同组别的截距,而加入交乘项在于区分不同组别的斜率。现在这个模型只保留了连续型变量主效应项,其实并没有允许区分不同组别的截距。因此,这个常数项的含义为全样本 socst = 0 的平均写作分数。 交乘项的系数含义为假设男性组别和女性组别的截距是相同的,女性组别的斜率和男性组别斜率之差。 可以用其他命令 margins 和 lincome 进一步解释为什么使用该模型一定要谨慎小心。 截距项无区分: . reg write socst i.female #c.socst . margins, at(female=( 0 1 ) socst = 0 ) noatlegend Adjusted predictions Number of obs = 200 Model VCE : OLS Expression : Linear prediction, predict() ------------------------------------------------------------------------------ | Delta-method | Margin Std. Err. t P |t| -------------+---------------------------------------------------------------- _at | 1 | 25.0561 2.597064 9.65 0 . 000 19.93449 30.17772 2 | 25.0561 2.597064 9.65 0.000 19.93449 30.17772 ------------------------------------------------------------------------------ 如下汇报的是不同组别的斜率。 . margins, dydx(socst) at(female=( 0 1 )) noatlegend post Average marginal effects Number of obs = 200 Model VCE : OLS Expression : Linear prediction, predict() dy/dx w.r.t. : socst ------------------------------------------------------------------------------ | Delta-method | dy/dx Std. Err. t P |t| -------------+---------------------------------------------------------------- socst | _at | 1 | .4903271 .0500357 9.80 0.000 .3916528 .5890014 2 | . 5604834 . 04 9094 11.42 0 . 000 . 463666 . 6573007 ------------------------------------------------------------------------------ 用图形表示如下。这与我们在研究中通常想要分析的情况是不一致的。 reg write socst i.female #c.socst qui margins female, at(socst=(5(5)70)) marginsplot, recast(line) noci addplot(scatter y x,jitter(3) msym(oh)) Figure 2.png 模型 4:只保留交互项 . reg write i.female #c.socst Source | SS df MS Number of obs = 200 -------------+---------------------------------- F(2, 197) = 66.96 Model | 7235.18229 2 3617.59115 Prob F = 0 . 0000 Residual | 10643.6927 197 54.028897 R-squared = 0.4047 -------------+---------------------------------- Adj R-squared = 0.3986 Total | 17878.875 199 89.843593 Root MSE = 7.3504 -------------------------------------------------------------------------------- write | Coef. Std. Err. t P| t | ---------------+---------------------------------------------------------------- female#c.socst | male | .4903271 .0500357 9.80 0.000 .3916528 .5890014 female | . 5604834 . 04 9094 11.42 0 . 000 . 463666 . 6573007 | _cons | 25.0561 2.597064 9.65 0 . 000 19.93449 30.17772 -------------------------------------------------------------------------------- 该模型类似于模型 3,也是我们不建议使用的模型。可以发现,该回归结果与模型 3 的结果是一致的,汇报的是假设不同组别截距项相同的情形下,不同组别的斜率。系数与 margins, dydx(socst) at(female=(0 1)) noatlegend post 汇报的也是一致的。 3. 实例 3:连续型变量相互交乘 (Continuous by Continuous Interaction) 完整模型 . reg write c.math ##c.socst Source | SS df MS Number of obs = 200 -------------+---------------------------------- F(3, 196) = 61.55 Model | 8672.71872 3 2890.90624 Prob F = 0 . 0000 Residual | 9206.15628 196 46.9701851 R-squared = 0.4851 -------------+---------------------------------- Adj R-squared = 0.4772 Total | 17878.875 199 89.843593 Root MSE = 6.8535 -------------------------------------------------------------------------------- write | Coef. Std. Err. t P| t | ---------------+---------------------------------------------------------------- math | . 6107585 . 2871688 2.13 0 . 035 . 044421 1.177096 socst | .5206108 .2675933 1.95 0.053 -.007121 1.048343 | c.math #c.socst | -.0036057 .0051493 -0.70 0.485 -.0137609 .0065494 | _cons | 3.483233 14.32252 0 . 24 0 . 808 - 24.7628 31.72927 -------------------------------------------------------------------------------- 常数项为 math = 0, socst = 0 时,全样本的写作平均分数。 交乘项的含义为当 math 或者 socst 变化一单位时, writing 对 socst 和 math 做回归的斜率的变动。 我们可以用图形表示。 reg write c.math ##c.socst margins, at(math=(30 75) socst=(30(5)70)) vsquish marginsplot, noci x(math) recast(line) 3.png 模型 2:去掉主效应项 c.math 回归结果如下所示。 . reg write c.socst ##c.math Source | SS df MS Number of obs = 200 -------------+---------------------------------- F(3, 196) = 61.55 Model | 8672.71872 3 2890.90624 Prob F = 0 . 0000 Residual | 9206.15628 196 46.9701851 R-squared = 0.4851 -------------+---------------------------------- Adj R-squared = 0.4772 Total | 17878.875 199 89.843593 Root MSE = 6.8535 -------------------------------------------------------------------------------- write | Coef. Std. Err. t P| t | ---------------+---------------------------------------------------------------- socst | . 5206108 . 2675933 1.95 0 . 053 -. 007121 1.048343 math | .6107585 .2871688 2.13 0.035 .044421 1.177096 | c.socst #c.math | -.0036057 .0051493 -0.70 0.485 -.0137609 .0065494 | _cons | 3.483233 14.32252 0 . 24 0 . 808 - 24.7628 31.72927 -------------------------------------------------------------------------------- 此处,再次强调,引入主效应项的目的在于改变截距。我们可以用图形来感受这句话的含义。除非可以确认截距是一致的,不然在连续变量相互交乘的模型中,应该谨慎去掉主效应项。 Figure 4.png 总结 本篇推文讨论了三种情况下,在包含交乘项的回归中,主效应项是否可以去掉的问题。根据不同的情况,本文给出了不同的分析以及实证建议。 主要回归命令及实证建议归纳如下。 use https: //stats.idre.ucla.edu/stat/data/hsbanova, clear \\数据引入 *- 类别变量相互交乘 regress write i.female##i.grp \\完整模型 margins female##grp regress write i.grp i.female#i.grp \\模型 2:去掉主效应项 female *无模型设定问题,但系数含义改变* regress write i.female i.female#i.grp \\模型 3:去掉主效应项 grp *无模型设定问题,但系数含义改变* regress write i.female#i.grp \\模型 4:只保留交乘项 *无模型设定问题,但系数含义改变* *- 类别变量与连续型变量相互交乘 regress write i.female##c.socst \\完整模型 regress write i.female i.female#c.socst \\模型 2:去掉主效应项 c.socst *无模型设定问题,但系数含义改变* reg write socst i.female#c.socst \\模型 3:去掉主效应项 i.female *可能存在模型设定问题* margins, at(female=(0 1) socst = 0) noatlegend margins, dydx (socst) at(female=(0 1)) noatlegend post reg write socst i.female#c.socst qui margins female, at(socst=(5(5)70)) marginsplot, recast ( line ) noci addplot( scatter y x,jitter(3) msym(oh)) reg write i.female#c.socst \\模型 4:只保留交乘项 *可能存在模型设定问题* *- 连续型变量与连续型变量相互交乘 reg write c.math##c.socst \\完整模型 margins, at(math=(30 75) socst=(30(5)70)) vsquish marginsplot, noci x(math) recast ( line ) reg write c.socst##c.math \\模型 2:去掉主效应项 *可能存在模型设定问题*   连享会计量方法专题……   关于我们 【 Stata 连享会(公众号:StataChina) 】由中山大学连玉君老师团队创办,旨在定期与大家分享 Stata 应用的各种经验和技巧。 公众号推文同步发布于 CSDN-Stata连享会 、 简书-Stata连享会 和 知乎-连玉君Stata专栏 。可以在上述网站中搜索关键词 Stata 或 Stata连享会 后关注我们。 点击推文底部【阅读原文】可以查看推文中的链接并下载相关资料。 Stata连享会 精品专题 || 精彩推文 联系我们 欢迎赐稿: 欢迎将您的文章或笔记投稿至 Stata连享会(公众号: StataChina) ,我们会保留您的署名;录用稿件达 五篇 以上,即可 免费 获得 Stata 现场培训 (初级或高级选其一) 资格。您也可以从 连享会选题平台 → 中选择感兴趣的题目来撰写推文。 意见和资料: 欢迎您的宝贵意见,您也可以来信索取推文中提及的程序和数据。 招募英才: 欢迎加入我们的团队,一起学习 Stata。合作编辑或撰写稿件五篇以上,即可 免费 获得 Stata 现场培训 (初级或高级选其一) 资格。 联系邮件: StataChina@163.com 往期精彩推文 Stata连享会 计量专题 || 精品课程 || 推文集锦 点击查看完整推文列表 欢迎加入Stata连享会(公众号: StataChina)
个人分类: 交乘项|61 次阅读|0 个评论
分享 克强指数
accumulation 2017-5-15 17:08
克强指数(Li keqiang index),是英国著名政经杂志《经济学人》创造的用于评估中国GDP增长量的指标,以中国国务院总理李克强的名字命名。克强指数是三种经济指标:工业用电量、铁路运货量和银行中长期贷款余额的结合。 克强指数公式如下:克强指数=工业用电量增速×40% + 中长期贷款余额增速×35% + 铁路货运量增速×25% 其权重划分依据是根据三者增速与GDP增速拟合模型的一个简单的回归分析结果。
个人分类: 宏观经济学|0 个评论
分享 VEE 第一阶段 13
李航 2017-2-18 08:28
VEE 全称 Validation byEducational Experience ,简单的说,就是用学校的一些被 SOA 认可的课程去和 SOA 兑换。 VEE 一共有三门课程:公司理财、经济学、应用统计。 如果你所在的学校没有能够和 SOA 兑换的课程,或者你的成绩达不到 SOA 规定的标准,那么可以选择其他方式通过 VEE ,其中一种比较简单且价格适中的方法就是申请 NEAS 的在线课程。 NEAS 全称 New England ActuarialSeminars, 这个精算学会针对 SOA 的三门 VEE 开设了对应的课程。要想兑换 VEE 的经济学,需要通过 NEAS 的宏观经济学和微观经济学;要想兑换 VEE 的应用统计,需要通过 NEAS 的回归分析和时间序列;要想通过 VEE 的公司理财,只需通过 NEAS 的公司理财。 首先是网络报名,登陆 : http://neas-seminars.com/ 上的 register 页面,过程很简单,唯一需要注意的是你需要指定一个监考,监考的要求很宽泛,可以是精算师、准精算师,其他资格认证的专业人员,公司领导,大学老师。 每门课程都有 24 个 module ,学习资料都在论坛上 http://33771.hs2.instantasp.net/Default.aspx 。每个 module 里的资料大致分为三类: 1. reading:这个类似于考纲的东西,明确说明了教材里哪些需要看,哪些可以skip或者skim,哪些是考试必考的,哪些需要了解大概就行。 2. pps(practice problems):练习题,需要好好做,考试的题目和它类似。 3. hws(homeworks):作业,需要你做完后提交,提交的方式是发到一个指定的邮箱: vee-hw-neas@verizon.net 。 最后是考试,考试都是单选题, 50 道,做对了 35 道以上就算通过。考试前 NEAS 会把考卷和答题卡发到你监考的邮箱,你的监考会在考试当天的 9 : 00 把它们打印出来,考试时间 2 个小时,之后再把答题卡扫描成 PDF 发到指定邮箱。考试难度适中,比练习题的难度大,主要难在题目更灵活。但只有你理解那些知识点,通过是没有问题的。考试一周后会收到通知你考试通过的邮件。 每门课程只有同时完成下列几项才算通过: 1. 作业完成度不低于80%; 2. 考试正确率不低于70%; 3. 回归分析和时间序列还要完成一个项目,就类似于大学时上的计量经济学都要交一个大作业,内容自拟。 考试后过两周会邮件通知你是否pass了这门课程,同时NEAS会把你的名字发给SOA。这时候你需要登陆SOA的网站去申请VEE课程的兑换。 至此, ASA 阶段的全部考试的攻略我都写完了,版主是不是给我颁个突出贡献奖啊 ~ 另外两个帖子请见: 我是如何通过 SOA 前五门考试的 我是如何通过 FAP 的
0 个评论
分享 组间效应、固定效应、随机效应
chuck19850703 2016-3-27 15:43
be 这个option让stata以组为分析单位,此时的个案数为分组数。此时,用到的观测其实是y的各组均值和x的各组均值。以下两个命令等价。 1、xtreg y x,be i(groupvar) 2a、collapse (mean) y x,by(groupvar) 2b、reg y x fe这个option计算固定效应,以下两个命令等价: 3、xtreg y x,fe i(groupvar) 4、reg y x i.groupvar 对于re vs. fe,一般,基于panel data的回归分析需要考虑用fixed effect还是random effect,有时文章同时将两者的结果列出。通过hausman test,作者可以选取更适合的那种具体在文中解释。
0 个评论
分享 面板数据分析简要步骤与注意事项(面板单位根—面板协整—回归分析)
ajlisa 2015-12-4 15:22
步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。 因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。 单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250 之间,截面数介于10~250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。 由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。 其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin Chu t* 统计量、Breitung t 统计量、lm Pesaran Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量、Hadri Z统计量,并且Levin, Lin Chu t* 统计量、Breitung t统计量的原假设为存在普通的单位根过程,lm Pesaran Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量的原假设为存在有效的单位根过程, Hadri Z统计量的检验原假设为不存在普通的单位根过程。 有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC(Levin-Lin-Chu)检验和不同根单位根检验Fisher-ADF检验(注:对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的,反之则不平稳。 如果我们以T(trend)代表序列含趋势项,以I(intercept)代表序列含截距项,TI代表两项都含,N(none)代表两项都不含,那么我们可以基于前面时序图得出的结论,在单位根检验中选择相应检验模式。 但基于时序图得出的结论毕竟是粗略的,严格来说,那些检验结构均需一一检验。具体操作可以参照李子奈的说法:ADF检验是通过三个模型来完成,首先从含有截距和趋势项的模型开始,再检验只含截距项的模型,最后检验二者都不含的模型。并且认为,只有三个模型的检验结果都不能拒绝原假设时,我们才认为时间序列是非平稳的,而只要其中有一个模型的检验结果拒绝了零假设,就可认为时间序列是平稳的。 此外,单位根检验一般是先从水平(level)序列开始检验起,如果存在单位根,则对该序列进行一阶差分后继续检验,若仍存在单位根,则进行二阶甚至高阶差分后检验,直至序列平稳为止。我们记I(0)为零阶单整,I(1)为一阶单整,依次类推,I(N)为N阶单整。 步骤二:协整检验或模型修正 情况一:如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。因此协整的要求或前提是同阶单整。 但也有如下的宽限说法:如果变量个数多于两个,即解释变量个数多于一个,被解释变量的单整阶数不能高于任何一个解释变量的单整阶数。另当解释变量的单整阶数高于被解释变量的单整阶数时,则必须至少有两个解释变量的单整阶数高于被解释变量的单整阶数。如果只含有两个解释变量,则两个变量的单整阶数应该相同。 也就是说,单整阶数不同的两个或以上的非平稳序列如果一起进行协整检验,必然有某些低阶单整的,即波动相对高阶序列的波动甚微弱(有可能波动幅度也不同)的序列,对协整结果的影响不大,因此包不包含的重要性不大。而相对处于最高阶序列,由于其波动较大,对回归残差的平稳性带来极大的影响,所以如果协整是包含有某些高阶单整序列的话(但如果所有变量都是阶数相同的高阶,此时也被称作同阶单整,这样的话另当别论),一定不能将其纳入协整检验。 协整检验方法的文献综述:(1)Kao(1999)、Kao and Chiang(2000)利用推广的DF和ADF检验提出了检验面板协整的方法,这种方法零假设是没有协整关系,并且利用静态面板回归的残差来构建统计量。(2)Pedron(1999)在零假设是在动态多元面板回归中没有协整关系的条件下给出了七种基于残差的面板协整检验方法。和Kao的方法不同的是,Pedroni的检验方法允许异质面板的存在。(3)Larsson et al(2001)发展了基于Johansen(1995)向量自回归的似然检验的面板协整检验方法,这种检验的方法是检验变量存在共同的协整的秩。 主要采用的是Pedroni、Kao、Johansen的方法。 通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的。因此可以在此基础上直接对原方程进行回归,此时的回归结果是较精确的。 这时,我们或许还想进一步对面板数据做格兰杰因果检验(因果检验的前提是变量协整)。但如果变量之间不是协整(即非同阶单整)的话,是不能进行格兰杰因果检验的,不过此时可以先对数据进行处理。引用张晓峒的原话,“如果y和x不同阶,不能做格兰杰因果检验,但可通过差分序列或其他处理得到同阶单整序列,并且要看它们此时有无经济意义。” 下面简要介绍一下因果检验的含义:这里的因果关系是从统计角度而言的,即是通过概率或者分布函数的角度体现出来的:在所有其它事件的发生情况固定不变的条件下,如果一个事件X的发生与不发生对于另一个事件Y的发生的概率(如果通过事件定义了随机变量那么也可以说分布函数)有影响,并且这两个事件在时间上又有先后顺序(A前B后),那么我们便可以说X是Y的原因。考虑最简单的形式,Granger检验是运用F-统计量来检验X的滞后值是否显著影响Y(在统计的意义下,且已经综合考虑了Y的滞后值;如果影响不显著,那么称X不是Y的“Granger原因”(Granger cause);如果影响显著,那么称X是Y的“Granger原因”。同样,这也可以用于检验Y是X的“原因”,检验Y的滞后值是否影响X(已经考虑了X的滞后对X自身的影响)。 Eviews好像没有在POOL窗口中提供Granger causality test,而只有unit root test和cointegration test。说明Eviews是无法对面板数据序列做格兰杰检验的,格兰杰检验只能针对序列组做。也就是说格兰杰因果检验在Eviews中是针对普通的序列对(pairwise)而言的。你如果想对面板数据中的某些合成序列做因果检验的话,不妨先导出相关序列到一个组中(POOL窗口中的Proc/Make Group),再来试试。 情况二:如果如果基于单位根检验的结果发现变量之间是非同阶单整的,即面板数据中有些序列平稳而有些序列不平稳,此时不能进行协整检验与直接对原序列进行回归。但此时也不要着急,我们可以在保持变量经济意义的前提下,对我们前面提出的模型进行修正,以消除数据不平稳对回归造成的不利影响。如差分某些序列,将基于时间频度的绝对数据变成时间频度下的变动数据或增长率数据。此时的研究转向新的模型,但要保证模型具有经济意义。因此一般不要对原序列进行二阶差分,因为对变动数据或增长率数据再进行差分,我们不好对其冠以经济解释。难道你称其为变动率的变动率? 步骤三:面板模型的选择与回归 面板数据模型的选择通常有三种形式: 一种是混合估计模型(Pooled Regression Model)。如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。一种是固定效应模型(Fixed Effects Regression Model)。如果对于不同的截面或不同的时间序列,模型的截距不同,则可以采用在模型中添加虚拟变量的方法估计回归参数。一种是随机效应模型(Random Effects Regression Model)。如果固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,并且这两个随机误差项都服从正态分布,则固定效应模型就变成了随机效应模型。 在面板数据模型形式的选择方法上,我们经常采用F检验决定选用混合模型还是固定效应模型,然后用Hausman检验确定应该建立随机效应模型还是固定效应模型。 命令“hausman p q”,其中,p为(无论原假设是否成立)一致估计量的结果,q为(当原假设成立时)有效估计量的结果。比较FE与RE时,一般p是FE估计量的结果,q是RE估计量的结果。 一般地,拒绝原假设,选择FE;未拒绝原假设,选择RE。 检验结果中的“Probchi2 ”表示拒绝原假设所犯的弃真错误的概率(通俗地说,该概率越小,越应该拒绝原假设)。若把显著水平定为5%,上述结果表明,不能拒绝原假设。可选择RE模型。 检验完毕后,我们也就知道该选用哪种模型了,然后我们就开始回归: 在回归的时候,权数可以选择按截面加权(cross-section weights)的方式,对于横截面个数大于时序个数的情况更应如此,表示允许不同的截面存在异方差现象。估计方法采用PCSE(Panel Corrected Standard Errors,面板校正标准误)方法。Beck和Katz(1995)引入的PCSE估计方法是面板数据模型估计方法的一个创新,可以有效的处理复杂的面板误差结构,如同步相关,异方差,序列相关等,在样本量不够大时尤为有用。
0 个评论
分享 Growth Economics
accumulation 2015-6-19 21:51
协整分析的基本思想是,对不平稳的多个变量进行线性组合,使之相互抵消趋势项,从而成为平稳变量。一般地,在对变量间的相互关系进行分析时,常常使用回归分析方法,但这种回归分析要求变量都是平稳的。当变量是非平稳时间序列时,回归分析的结果有可能产生 Spurious regression 现象,而实证研究表明,许多宏观经济时间序列数据都是 I ( 1 )过程,因此需要采用协整分析方法进行数据分析。
个人分类: 宏观经济学|0 个评论
分享 R语言的一个小范例:数值模拟和绘图
accumulation 2015-5-23 01:48
下午上课,要给经济工程专业的本科生简要介绍一下用于统计分析和绘图的R语言。考虑到他们所在的年级并没有系统的学完统计学和计量经济学,打算不从回归分析入手,先教他们对R的基本操作有个了解。写了如下这段代码,准备课上带同学们做一下。顺便发到网上,供大家参考。 背景: 假定Beta 是 一个由alpha(0~1)决定的量,满足关系 问在alpha的取值空间内,Bata值的走势如何,以及最大值出现在什么地方,并绘图说明。 talk is cheap. show me the code (废话少说,放码过来) 一点一点写,并适当做说明 qiu - function(alpha){(alpha / (1-alpha))^{-alpha}} 这段代码的意思是,定义一个名为qiu的function,输入值alpha之后,会自动求得对应的值。比如 qiu(0.67) 0.622206 现在我们来搞alpha。 x - seq(0.001,0.99, by=0.001) 定义一个数组x,取值从0.01开始,每次增加0.001单位,直到0.999。然后看看x这个数组的情况吧 x length(x) 结果就不贴出来了。现在,把x的值交给qiu来处理,生成的一系列值,我们定义为y。 y - qiu(x) 画个草图来看看分布情况如何 plot(y~x) 显然,随着x从0到1, y并不是单调变化的:先增大,后减小。那么,y的最高值是多少?对应的x值是多大? max(y) x 第一行告诉你y的最大值1.3211 第二行的which.max(y)告诉你当y值最大时,所对应的编号是218。把218带入x中,找到对应的x的值:x =0.218 schx=c(x ) schy=c(max(y)) 分别将y值最大时的x和y值,定义为schx和schy,供下文使用。 重新画张图,前面那张太丑了 dev.off() plot(y~x, ylim=c(0,1.5), xlim=c(0,1), type="l", ylab=expression(beta), xlab=expression(alpha)) 第一行dev.off()告诉R的绘图程序,关闭此前的图。第二行的ylim和xlim定义x和y轴的取值范围。type是告诉plot程序,散点图以line的形式呈现。ylab和xlab是x和y轴的名称:由于我们需要使用希腊字母,因此需要使用expression(alpha)和expression(beta)来打出与。 比原来那张图看着帅一些了是吧。继续调整。 par(new=TRUE) plot(max(y)~x , pch=2, lty=3, col="red",ylim=c(0,1.5), xlim=c(0,1), ylab="", xlab="") 第一行告诉绘图程序,我下面要在原有那张图的基础上,继续添加内容,不要覆盖原图。 第二行中,把y最大值时的点标出来,pch表示这个点的形状(1是空心圆,2是空心三角,等等,你们自己试试看从1到20吧)。col="red",将这个点画成红色。ylab和xlab设为空,ylim和xlim和上文的值相同,使得两张图x轴、y轴重合。 差不多行了。如果你想继续和我一样骚包一点的话,跟我向下继续设置。 text(schx, schy-0.2, substitute(paste("(", xx ,", ", yy, ")"), list(xx=schx,yy=schy))) 这行代码的作用是,在途中加入一段文字。语法text(a,b,c)的意思是,a代表横坐标的位置,b代表纵坐标的位置,c代表所需要加入的语言。a和b加在一起,告诉plot()需要把一段文字c放在(a,b)这个地方。 c需要做进一步的说明。"(", 以及 ")", 表示这其中是有纯文字部分的,plot()直接把它们打出来即可(注意逗号是要保留的)。加在两个小括号中间的是xx和yy,这是两个值。 substitute(paste(),list()): substitute()中包括两部分,一部分是paste(),一部分是list()。paste告诉plot()要加入这段东西了,其中包括两个待赋值的xx和yy。list()为它们分别赋值。 看看效果吧。 看起来还可以。要是能把这个式子也写上去就更完美了。 text(0.4, 0.5, substitute( paste(beta == (frac(alpha, 1-alpha))^{-alpha}, ",", "0", alpha, "1") ) ) 收工。这张图看起来还是有些难看。。。。不过基本信息都已经有了。 (来源:中国统计网)
个人分类: 金融学|0 个评论
分享 影响财富不平等的因素分析
accumulation 2014-12-17 12:05
摘要:皮克迪用 18 — 21 世纪的数据论述,资本回报率会长期高于经济增长率,进而加剧财富不平等程度;本文运用多元回归分析方法对美国、法国 1900 — 2010 年与财富不平等程度相关的时间序列数据进行分析,探究各时间序列数据对财富不平等程度的影响。 关键词:财富不平等程度 经济增长 ZF政策外生冲击 一、 序言 美国经济学家库兹涅茨利用美国 1913 — 1948 年关于不平等程度的时间序列数据,提出了经济增长会自发降低财富不平等程度的观点;法国经济学家皮克迪利用更长历史时期的数据,提出了资本回报率长期高于经济增长率,财富不平等程度将升高的理论;本文尝试利用多元回归方法分析美国、法国 1900 — 2010 年的相关时间序列数据,探究经济增长、ZF政策与外生冲击对财富不平等的影响方向以及程度大小。 二、 数据收集及模型的建立 1. 数据收集: 数据内容为美国、法国的以下时间序列数据: (1) 最富有 10% 人口所拥有的财富比例的百分点: topten ; (2) 经济增长率: gdprate ; (3) 人口增长率: porate ; (4) 公共财富比例: pubwratio ; (5) 最高边际收入税率: mtax ; (6) 经济危机冲击(虚拟变量): crisis ; (7) 战争冲击(虚拟变量): war ; 2. 模型建立: 设立多元回归模型如下: ln ( topten ) = β 0 + β 1 gdprate+ β 2 porate+ β 3 pubwratio+ β 4 mtax+ β 5 crisis+ β 6 war+u ; 用最富有 10% 人口所拥有的财富比例的百分点作为因变量,描述财富不平等程度,模型中因变量取对数形式, u 代表随机扰动项; 三、 模型的估计与检验 1. 参数初始估计: 根据 1900 — 2010 年的时间序列数据,利用 OLS 计算各个参数的估计值,得到多元回归方程: 美国: ln(topten)=0.041gdprate-13.698porate-0.406pubwratio -0.213mtax+0.033crisis-0.048war+4.126 ; 法国: ln(topten)=0.015gdprate+1.062porate-0.327pubwratio -0.458mtax+0.074crisis-0.071war+3.765 ; 回归的 Beta 系数——解释变量的影响程度: 美国: Z(ln(topten))=0.0180129*Z 1 -0.4354494*Z 2 -0.40341*Z 3 -0.5001351*Z 4 +0.080456*Z 5 -0.156182*Z 6 法国: Z(ln(topten))=0.0082384*Z 1 +0.0582841*Z 2 -0.6869965*Z 3 -0.3587611*Z 4 +0.1598351*Z 5 -0.1943358*Z 6 Z 1 :gdprate; Z 2 :porate; Z 3 :pubwratio; Z 4 :mtax; Z 5 :crisis; Z 6 :war; 利用 stata 软件,回归结果如下: 美国: Number of observations=111 Variable Coefficient Std. Error t-Statistic P|t| Cons 4.126302 0.0434222 95.03 0.000 Gdprate 0.0410468 0.1391969 0.29 0.769 Porate -13.69772 1.982384 -6.91 0.000 Pubwratio mtax crisis war -0.40629 -0.213 0.0330544 -0.0483999 0.06102 0.02903 0.021572 0.0434222 -6.66 -7.34 1.29 -2.24 0.000 0.000 0.201 0.027 R-squared 0.6759 Adjusted R-squared 0.6572 F-statistic 36.15 Prob F 0.0000 法国: Number of observations=111 Variable Coefficient Std. Error t-Statistic P|t| cons 3.764994 0.0191693 196.50 0.000 gdprate 0.015071 0.1183647 0.13 0.899 porate 1.062085 1.498253 0.71 0.480 pubwratio mtax crisis war -0.32709 -0.45755 0.0738046 -0.0711445 0.03395 0.07243 0.024433 0.0203052 -9.64 -6.32 3.02 -3.50 0.000 0.000 0.003 0.001 R-squared 0.7334 Adjusted R-squared 0.7181 F-statistic 47.69 Prob F 0.0000 对美国,拟合优度为 67.59% ;对法国,拟合优度为 73.34% ; 2. 多重共线性检验: ( 1 )美国—相关系数表: topten gdprate porate pubwratio Mtax crisis war Topten 1.0000 Gdprate -0.0613 1.0000 Porate -0.2688 0.0385 1.0000 pubwratio -0.4326 -0.096 -0.2246 1.0000 Mtax -0.5535 0.0728 -0.2341 0.2312 1.0000 Crisis 0.2192 -0.2814 -0.3255 0.1593 -0.0721 1.0000 War -0.5082 0.2706 0.0142 0.2496 0.5006 -0.1124 1.0000 在多元回归中,变量 gdprate 、 war 、 crisis 不显著,对它们作联合显著检验: test(war=0)(crisis=0)(gdprate=0) 结果: F ( 3,104 ) =2.37 ; Prob F=0.0764 ; 因此,在 7.64% 水平下,可以拒绝联合假设; ( 2 )法国—相关系数表: topten gdprate Porate pubwratio Mtax crisis war Topten 1.0000 Gdprate -0.1151 1.0000 Porate -0.3276 0.5953 1.0000 Pubwratio -0.7549 0.2300 0.5861 1.0000 Mtax -0.6084 0.0282 0.1734 0.4332 1.0000 Crisis 0.0025 -0.0748 0.0428 0.1953 0.1418 1.0000 War -0.1128 -0.1263 -0.3408 -0.1376 -0.1035 -0.1682 1.0000 在多元回归中,变量 gdprate 、 porate 不显著,猜测是 war 与 gdprate 、 porate 有多重共线性,对它们作联合显著检验: test(gdprate=0)(war=0) 结果: F ( 2,104 ) =6.17 ; Prob F=0.0029 ; 因此,在 0.29% 水平下,可以拒绝联合假设; test(porate=0)(war=0) 结果: F ( 2,104 ) =8.21 ; Prob F=0.0005 ; 因此,在 0.05% 水平下,可以拒绝联合假设; 综上,模型存在一定的多重共线性问题; 四、 回归分析结果的经济检验与解释 1. 经济增长率: 相关分析中,美国、法国财富不平等程度与经济增长率均是负相关关系,而在多元回归中,经济增长率 gdprate 的参数都为正值,且在两个的样本中都不显著,因此,经济增长率与其它解释变量存在严重多重共线性,经济增长率对财富不平等程度的影响方向难以确定; 经济增长与技术进步会提供更多的机会,为有能力把握机遇的人提供创新与创业的机会,淘汰不能适应产业发展的原资本占有者,增长、竞争与技术进步之间的不断博弈将降低社会不平等程度;另一方面,现代经济增长中的新兴产业多为资本密集型产业,因此技术进步与信息传播更多地为资本提供了投资机会,增大资本回报率,进而提高社会不平等程度; 2. 人口增长率: 相关分析中,美国、法国财富不平等程度与人口增长率均是负相关关系,而多元回归中, porate (美国)的参数为负值, porate (法国)的参数是正值,由于多重共线性,此模型中人口增长率对财富不平等程度的影响方向难以确定; 人口增长率受到战争、经济危机、政策等外生冲击的影响,因此人口增长与不平等程度之间的相关性不好确定;如:因战争导致的人口增长率下降,理论上提高不平等程度,而战争客观上降低了不平等程度; 3. 公共财富比例: 公共财富比例的上升可以降低财富不平等程度,此模型中,美国公共财富比例上升 1% 可以近似使得美国最富有 10% 人口所拥有的财富比例的百分点下降 0.406% ;法国公共财富比例上升 1% 可以近似使得法国最富有 10% 人口所拥有的财富比例的百分点下降 0.327% ;参数均显著; 历史上,法国在二战后实行“没有资本家的资本主义”,将大量资本收为国有,有效降低了财富不平等程度;与之对应, 20 世纪 80 年代的经济私有化运动使发达国家财富不平等程度明显上升; 4. 最高边际税率: 最高边际税率的上升可以降低财富不平等程度,此模型中,美国公共财富比例上升 1% 可以近似使得美国最富有 10% 人口所拥有的财富比例的百分点下降 0.213% ;法国公共财富比例上升 1% 可以近似使得法国最富有 10% 人口所拥有的财富比例的百分点下降 0.458% ;参数均显著; 20 世纪 80 年代,美国总统里根的减税政策,导致最高边际税率从 70% 下降到 30% ,这在一定程度上解释了美国财富不平等程度 20 世纪 80 年代开始的显著上升; 5. 经济危机: 此模型中,财富不平等程度与经济危机正相关,与“经济危机会降低资本收入比,从而降低财富不平等程度”的观点相悖; 问题的关键可能是财富不平等程度与经济危机复杂的内生关系;收入不平等的急剧扩大源于较高的资本收入比,同时会降低社会总需求,触发经济危机;因此,经济危机爆发时往往对应很高的财富不平等程度,因此二者相关性为正; 6. 战争: 战争可以降低财富不平等程度,此模型中,对美国,当年存在战争可以近似使得美国最富有 10% 人口所拥有的财富比例的百分点下降 0.048% ;对法国,当年存在战争可以近似使得法国最富有 10% 人口所拥有的财富比例的百分点下降 0.071% ;美国和法国关于虚拟变量战争的参数均在 5% 水平上显著; 战争会摧毁大量物质资本,降低资本收入比,从而降低财富不平等程度;更重要的是,战争带来的财政和政策冲击对资本有更强的破坏力,如外国投资的减少,储蓄率的降低;此外,战争对财富不平等程度在战后会有长期的影响; 五、 结论 1. 经济增长率与人口增长率对不平等程度的影响不显著,且方向不确定,其原因是经济增长率、人口增长率与其它变量的多重共线性; 2. ZF可以通过调节公共财富比例与最高边际税率有效地降低不平等程度; 3. 一般地,战争可降低财富不平等程度,而经济危机爆发于财富不平等程度高的时期,因此经济危机与财富不平等的内生关系相对复杂; 六、 模型缺陷分析 1. 无法定量衡量制度、技术进步对全要素生产率的贡献,因此模型中的遗漏变量难以描述; 2. 模型函数形式的选择有待改进; 3. 经济危机冲击、战争冲击两个虚拟变量都不能得出显著效果,因此需要进一步考虑如何刻画经济危机、战争冲击对不平等程度的影响; 4. 财富不平等程度的上升可能引发经济危机,经济危机反过来可能降低了财富不平等程度;因此,经济危机与财富不平等程度的内生关系在此模型中不能准确刻画,可以对经济危机发生概率进行回归分析,以更好地解释财富不平等与经济危机之间的正相关关系。
0 个评论
分享 SAS、Stata与SPSS的比较
pkubird 2014-2-7 03:08
很多人曾问及SAS,Stata 和SPSS之间的不同,它们之中哪个是最好的。可以想到,每个软件都有自己独特的风格,有自己的优缺点。本文对此做了概述,但并不是一个综合的比较。人们 时常会对自己所使用的统计软件有特别的偏好,希望大多数人都能认同这是对这些软件真实而公允的一个对比分析。 SAS 一般用法。SAS由于其功能强大而且可以编程,很受高级用户的欢迎。也正是基于此,它是最难掌握的软件之一。使用SAS时,你需要编写SAS程序来处理数据,进行分析。如果在一个程序中出现一个错误,找到并改正这个错误将是困难的。 数据管理。在数据管理方面,SAS是非常强大的,能让你用任何可能的方式来处理你的数据。它包含SQL(结构化查询语言)过程,可以在SAS数据集中使 用SQL查询。但是要学习并掌握SAS软件的数据管理需要很长的时间,在Stata或SPSS中,完成许多复杂数据管理工作所使用的命令要简单的多。然 而,SAS可以同时处理多个数据文件,使这项工作变得容易。它可以处理的变量能够达到32,768个,以及你的硬盘空间所允许的最大数量的记录条数。 统计分析。SAS能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,多变量分析)。SAS的最优之处可能在于它 的方差分析,混合模型分析和多变量分析,而它的劣势主要是有序和多元logistic回归(因为这些命令很难),以及稳健方法(它难以完成稳健回归和其他 稳健方法)。尽管支持调查数据的分析,但与Stata比较仍然是相当有限的。 绘图功能。在所有的统计软件中,SAS有最强大的绘图工具,由SAS/Graph模块提供。然而,SAS/Graph模块的学习也是非常专业而复杂,图形的制作主要使用程序语言。SAS 8虽然可以通过点击鼠标来交互式的绘图,但不象SPSS那样简单。 总结。SAS适合高级用户使用。它的学习过程是艰苦的,最初的阶段会使人灰心丧气。然而它还是以强大的数据管理和同时处理大批数据文件的功能,得到高级用户的青睐。 Stata 一般用法。Stata以其简单易懂和功能强大受到初学者和高级用户的普遍欢迎。使用时可以每次只输入一个命令(适合初学者),也可以通过一个Stata程序一次输入多个命令(适合高级用户)。这样的话,即使发生错误,也较容易找出并加以修改。 数据管理。尽管Stata的数据管理能力没有SAS那么强大,它仍然有很多功能较强且简单的数据管理命令,能够让复杂的操作变得容易。Stata主要用 于每次对一个数据文件进行操作,难以同时处理多个文件。随着Stata/SE的推出,现在一个Stata数据文件中的变量可以达到32,768,但是当一 个数据文件超越计算机内存所允许的范围时,你可能无法分析它。 统计分析。Stata也能够进行大多数统计分析(回归分析,logistic回 归,生存分析,方差分析,因子分析,以及一些多变量分析)。Stata最大的优势可能在于回归分析(它包含易于使用的回归分析特征工具), logistic回归(附加有解释logistic回归结果的程序,易用于有序和多元logistic回归)。Stata也有一系列很好的稳健方法,包括 稳健回归,稳健标准误的回归,以及其他包含稳健标准误估计的命令。此外,在调查数据分析领域,Stata有着明显优势,能提供回归分析,logistic 回归,泊松回归,概率回归等的调查数据分析。它的不足之处在于方差分析和传统的多变量方法(多变量方差分析,判别分析等)。 绘图功能。正如 SPSS,Stata能提供一些命令或鼠标点击的交互界面来绘图。与SPSS不同的是它没有图形编辑器。在三种软件中,它的绘图命令的句法是最简单的,功 能却最强大。图形质量也很好,可以达到出版的要求。另外,这些图形很好的发挥了补充统计分析的功能,例如,许多命令可以简化回归判别过程中散点图的制作。 总结。Stata较好地实现了使用简便和功能强大两者的结合。尽管其简单易学,它在数据管理和许多前沿统计方法中的功能还是非常强大的。用户可以很容易的下载到别人已有的程序,也可以自己去编写,并使之与Stata紧密结合。 SPSS   一般用法。SPSS非常容易使用,故最为初学者所接受。它有一个可以点击的交互界面,能够使用下拉菜单来选择所需要执行的命令。它也有一个通过拷贝和粘贴的方法来学习其“句法”语言,但是这些句法通常非常复杂而且不是很直观。 数据管理。SPSS有一个类似于Excel的界面友好的数据编辑器,可以用来输入和定义数据(缺失值,数值标签等等)。它不是功能很强的数据管理工具 (尽管SPS 11版增加了一些增大数据文件的命令,其效果有限)。SPSS也主要用于对一个文件进行操作,难以胜任同时处理多个文件。它的数据文件有4096个变量, 记录的数量则是由你的磁盘空间来限定。 统计分析。SPSS也能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析, 因子分析,多变量分析)。它的优势在于方差分析(SPSS能完成多种特殊效应的检验)和多变量分析(多元方差分析,因子分析,判别分析等), SPSS11.5版还新增了混合模型分析的功能。其缺点是没有稳健方法(无法完成稳健回归或得到稳健标准误),缺乏调查数据分析(SPSS12版增加了完 成部分过程的模块)。 绘图功能。SPSS绘图的交互界面非常简单,一旦你绘出图形,你可以根据需要通过点击来修改。这种图形质量极佳,还能粘 贴到其他文件中(Word 文档或Powerpoint等)。SPSS也有用于绘图的编程语句,但是无法产生交互界面作图的一些效果。这种语句比Stata语句难,但比SAS语句简 单(功能稍逊)。 总结。SPSS致力于简便易行(其口号是“真正统计,确实简单”),并且取得了成功。但是如果你是高级用户,随着时间推移你会对它丧失兴趣。SPSS是制图方面的强手,由于缺少稳健和调查的方法,处理前沿的统计过程是其弱项。 总体评价 每个软件都有其独到之处,也难免有其软肋所在。总的来说,SAS,Stata和SPSS是能够用于多种统计分析的一组工具。通过 Stat/Transfer可以在数秒或数分钟内实现不同数据文件的转换。因此,可以根据你所处理问题的性质来选择不同的软件。举例来说,如果你想通过混 合模型来进行分析,你可以选择SAS;进行logistic回归则选择Stata;若是要进行方差分析,最佳的选择当然是SPSS。假如你经常从事统计分 析,强烈建议您把上述软件收集到你的工具包以便于数据处理
个人分类: 转载|1 次阅读|0 个评论

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2020-10-21 15:54