下面看一个例子。下面也是一些心得与体会,希望能与大家一起讨论。
下图是在个体固定效应下,试图控制区域和行业两个不随时点变化的因素:
下图是用reghdfe命令试图控制区域和行业两个不随时点变化的因素,Absorbed degree of freedom一栏已经表明reghdfe命令同样失效。因为其在模型中的虚拟变量个数全部为0。见下图最下面的表格:
那就是最下面关于Absorbed degree of freedom里信息,由于reghdfe它没有截距项,所以number是1749个属性,设置了1749个虚拟变量(即估计了1749个系数),然而,由于region1和industry1是不随时间变化的量,所以在设置虚拟变量时,他们对应的虚拟变量的个数都是0,即他们是多余的,在reghdfe的回归中压根就没有使用它们。
也就是说,这个做法reghdfe tobinq fem numexe lev size age ls, a(number region1 industry1) vce(robust)与xtreg tobinq fem numexe lev size age ls , fe 的系数之所以是一样的,就是因为reghdfe回归中压根就没有使用region1和industry1的信息,当然xtreg tobinq fem numexe lev size age ls , fe 里面也没有这两个变量。
当然,若使用 xtreg tobinq fem numexe lev size age ls i.region1 i.industry1 ,fe r 那么 region1 和industry1的虚拟变量将会omitted 。或者使用reg tobinq fem numexe lev size age ls i.number i.region1 i.industry1 , r也就是LSDV估计法时,会出现类似的情况,一定会有7+16=23个虚拟变量会omitted (这个跟 i.number i.region1 i.industry1 在reg里的顺序有关的,在这个排序里i.region1 i.industry1将会omitted ;若排序是这样的reg tobinq fem numexe lev size age ls i.region1 i.industry1 i.number , r 那么i.number里将有23个虚拟变量会omitted )。
当然,若使用reg tobinq fem numexe lev size age ls i.number i.region1 i.industry1 , r 或者使用xtreg tobinq fem numexe lev size age ls i.region1 i.industry1 ,fe r 或者使用 xtreg tobinq fem numexe lev size age ls , fe r 或者使用reghdfe tobinq fem numexe lev size age ls, a(number region1 industry1) vce(r) 回归后,会发现他们的系数估计值是一样的,但估计值标准误可能会有少许不同。
回到前面,即表面上,reghdfe函数好像控制了region1 和industry1,然而,实际情况就同上面的分析一样,reghdfe根本就有做到这一点,它把多余的虚拟变量全删掉了,只是,我们没发现而已。
那为什么会这样呢?
其实原因很简单,那就是number是随个体变化,不随时间变化的,所以,当你考虑其他不随时间变量的因素(行业、省份、区域、企业性质、银行所有制性质等)时,其实他们的信息都在number里反应出来了,所以再设置不随时间变化的变量时,就是多余的了。(这里的主要原因是:若个体固定效应模型是采用Within回归(xtreg , fe),它会将不随时点变化的量都减去了,所以,如果模型中不随时点变化的虚拟变量(包括个体固定效应项)的属个数如果大于N(无截距项情形;有截距项就是N-1个),它只能估计出前N个,其他的都不在模型中;若是采用LSDV法估计个体固定效应模型(reg i.number),是设置了N-1个虚拟变量实现的,如果再往模型里加不随时点变化的虚拟变量(如行业、区域等),模型是会将它们排除在模型里面的。)
所以,一些文献关于,在有个体固定效应的基础上,考虑控制(行业、省份、区域、企业性质、银行所有制性质等)这类不随时间变化的因素的影响时,不知道他们是如何控制的。
【情形1】如果(行业、省份、区域、企业性质、银行所有制性质等)这类不随时间变化的因素设置为虚拟变量,至少目前的软件操作已经告诉了我们这一点,行不通。
【情形2】(如果(行业、省份、区域、企业性质、银行所有制性质等)这类不随时间变化的因素不是设置为虚拟变量,而是用其他数字替代,并以定量变量放置模型,就有两个问题:
(1)如果这些数字是人为赋值的,那就不合适,因为每个人赋予它们的值可能不同,即便是同一个问题,样本、变量等都相同,仅仅赋值不同也会得到不同的估计结果,那谁的赋值是真实的,无人知晓。
(2)若industry1、region1不是人为赋值的量,它们本身就有一个数字(客观、公正的数字)表示它们,只是它们比较特殊不随时间变化而已,那就是一个普通的定量变量,reg回归可以运行,或者随机效应模型里也可以,但个体固定效应回归,xtreg y x1 x2 …… xk i.year region1 industry1, fe r 仍然无法估计。)
当然,如果是在时点效应的基础上或随机效应的基础(或者其他非个体固定效应模型)上,考虑(行业、省份、区域、企业性质、银行所有制性质等)这类不随时间变化的因素的影响,reghdfe、reg、xtreg都是可以做到的;
但是也要注意:不随时间变化的虚拟变量(你想在非个体固定效应模型中控制的变量)的个数之和要小于等于个体数N(无截距项情形;有截距项就是N-1个),否则,会出现在个体固定效应模型中一样的问题。
上面是一些心得与体会,希望能与大家一起交流、学习、讨论。
更多计量经济学、时间序列分析、面板数据模型Stata、EViews视频操作内容、数据,请见(里面有百度云盘地址):https://bbs.pinggu.org/thread-6211334-1-1.html
或者,经管之家官方置顶帖:https://bbs.pinggu.org/thread-6681760-1-1.html
Stata软件、EViews软件下载地址:https://bbs.pinggu.org/thread-6629658-1-1.html