楼主: 财经节析
2067 26

[学习心得] 面板数据模型中Stata如何控制行业、产业、区域、企业性质、规模、所有制、省域等 [推广有奖]

  • 0关注
  • 67粉丝

讲师

4%

还不是VIP/贵宾

-

威望
0
论坛币
3291 个
学术水平
97 点
热心指数
91 点
信用等级
74 点
经验
6025 点
帖子
351
精华
3
在线时间
70 小时
注册时间
2017-8-25
最后登录
2018-6-11

财经节析 发表于 2018-5-19 12:15:19 |显示全部楼层
本帖最后由 财经节析 于 2018-5-20 09:36 编辑

最近,在课堂上和论坛上都看到了一些关于在面板数据模型中,如何控制行业、产业、区域、企业性质、规模、所有制、省域不随时间变化的因素的影响,尤其是Stata软件中如何操作,在个体固定效应模型中,若加入行业等不随时点变化的变量时,为什么会出现omitted的情形,尽管有人建议使用reghdfe命令,其实还是会出现类似情况(即reghdfe命令失效)
下面看一个例子。下面也是一些心得与体会,希望能与大家一起讨论。

下图是在个体固定效应下,试图控制区域和行业两个不随时点变化的因素:
092534g714gu454zkx746f.png



下图是用reghdfe命令试图控制区域和行业两个不随时点变化的因素,Absorbed  degree of freedom一栏已经表明reghdfe命令同样失效。因为其在模型中的虚拟变量个数全部为0。见下图最下面的表格:
111413f8plcgw2lnncwpj2.png


那就是最下面关于Absorbed degree of freedom里信息,由于reghdfe它没有截距项,所以number是1749个属性,设置了1749个虚拟变量(即估计了1749个系数),然而,由于region1和industry1是不随时间变化的量,所以在设置虚拟变量时,他们对应的虚拟变量的个数都是0,即他们是多余的,在reghdfe的回归中压根就没有使用它们。


也就是说,这个做法reghdfe tobinq fem numexe lev size age ls, a(number region1 industry1) vce(robust)与xtreg tobinq fem numexe lev size age ls , fe 的系数之所以是一样的,就是因为reghdfe回归中压根就没有使用region1和industry1的信息,当然xtreg tobinq fem numexe lev size age ls , fe 里面也没有这两个变量。


当然,若使用 xtreg tobinq fem numexe lev size age ls  i.region1  i.industry1 ,fe  r 那么  region1 和industry1的虚拟变量将会omitted  。或者使用reg tobinq fem numexe lev size age ls  i.number  i.region1   i.industry1 , r也就是LSDV估计法时,会出现类似的情况,一定会有7+16=23个虚拟变量会omitted (这个跟 i.number i.region1  i.industry1 在reg里的顺序有关的,在这个排序里i.region1  i.industry1将会omitted ;若排序是这样的reg tobinq fem numexe lev size age ls   i.region1  i.industry1  i.number , r  那么i.number里将有23个虚拟变量会omitted )

当然,若使用reg tobinq fem numexe lev size age ls  i.number i.region1 i.industry1 , r  或者使用xtreg tobinq fem numexe lev size age ls  i.region1 i.industry1 ,fe  r  或者使用 xtreg tobinq fem numexe lev size age ls , fe  r  或者使用reghdfe tobinq fem numexe lev size age ls, a(number region1 industry1) vce(r) 回归后,会发现他们的系数估计值是一样的,但估计值标准误可能会有少许不同。

回到前面,即表面上,reghdfe函数好像控制了region1 和industry1,然而,实际情况就同上面的分析一样,reghdfe根本就有做到这一点,它把多余的虚拟变量全删掉了,只是,我们没发现而已。


那为什么会这样呢?

其实原因很简单,那就是number是随个体变化,不随时间变化的,所以,当你考虑其他不随时间变量的因素(行业、省份、区域、企业性质、银行所有制性质等)时,其实他们的信息都在number里反应出来了,所以再设置不随时间变化的变量时,就是多余的了。(这里的主要原因是:若个体固定效应模型是采用Within回归(xtreg    , fe),它会将不随时点变化的量都减去了,所以,如果模型中不随时点变化的虚拟变量(包括个体固定效应项)的属性个数如果大于N,它只能估计出前N个,其他的都不在模型中;若是采用LSDV法估计个体固定效应模型(reg     i.number),是设置了N-1个虚拟变量实现的,如果再往模型里加不随时点变化的虚拟变量(如行业、区域等),模型是会将它们排除在模型里面的。)

所以,一些文献关于,在有个体固定效应的基础上,考虑控制(行业、省份、区域、企业性质、银行所有制性质等)这类不随时间变化的因素的影响时,不知道他们是如何控制的。


【情形1如果(行业、省份、区域、企业性质、银行所有制性质等)这类不随时间变化的因素设置为虚拟变量,至少目前的软件操作已经告诉了我们这一点,行不通。

【情形2如果(行业、省份、区域、企业性质、银行所有制性质等)这类不随时间变化的因素不是设置为虚拟变量,而是用其他数字替代,并以定量变量放置模型,就有两个问题:
(1)如果这些数字是人为赋值的,那就不合适,因为每个人赋予它们的值可能不同,即便是同一个问题,样本、变量等都相同,仅仅赋值不同也会得到不同的估计结果,那谁的赋值是真实的,无人知晓。
(2)若industry1、region1不是人为赋值的量,它们本身就有一个数字(客观、公正的数字)表示它们,只是它们比较特殊不随时间变化而已,那就是一个普通的定量变量,reg回归可以运行,或者随机效应模型里也可以,但个体固定效应回归,xtreg y x1 x2 …… xk i.year  region1 industry1, fe r  仍然无法估计。



当然,如果是在时点效应的基础上或随机效应的基础(或者其他非个体固定效应模型)上,考虑(行业、省份、区域、企业性质、银行所有制性质等)这类不随时间变化的因素的影响,reghdfe、reg、xtreg都是可以做到的;


但是也要注意:其他不随时间变化的虚拟变量(你想在非个体固定效应模型中控制的变量)的属性之和要小于等于个体数(N),否则,会出现在个体固定效应模型中一样的问题。


上面是一些心得与体会,希望能与大家一起交流、学习、讨论。


0925463fjd3gv7bbbvjmaj.png
已有 2 人评分经验 学术水平 热心指数 信用等级 收起 理由
np84 + 100 精彩帖子
日新少年 + 1 + 1 + 1 精彩帖子

总评分: 经验 + 100  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

本帖被以下文库推荐

stata SPSS
黃河泉 在职认证  发表于 2018-5-19 15:56:19 |显示全部楼层
1. 你说 (即reghdfe命令失效) 是不正确的,你的结果中区间与行业 (region and industry) 是因为与你的个体固定效应有完全共线性而被删除(系数为 0),这是必然的。2. 现在新版的 reghdfe 也可报告常数项了。
已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
日新少年 + 1 + 1 + 1 精彩帖子
葫芦娃大王 + 10 + 10 精彩帖子

总评分: 经验 + 10  论坛币 + 10  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

回复

使用道具 举报

财经节析 发表于 2018-5-19 16:46:37 |显示全部楼层
本帖最后由 财经节析 于 2018-5-19 17:18 编辑
黃河泉 发表于 2018-5-19 15:56
1. 你说 (即reghdfe命令失效) 是不正确的,你的结果中区间与行业 (region and industry) 是因为与你的个体 ...
首先,我说的就是在个体固定效应变截距面板数据模型下的结论(即我说的失效,是指reghdfe不能控制那些像行业、区域等不随时间变化的因素,因为我看到有人推荐在个体固定效应下使用reghdfe命令控制行业等不随时间变化的因素,主要是针对这一点。)呀。

其次,reghdfe报不报告常数不重要,报告常数,虚拟变量个数就少一个。仍不能在截距项存在个体固定效应的前提下估计其他不随时点变化的因素。
最后,补充一点,我刚看了你关于reghdfe与常数项那篇文章,他下面的虚拟变量个数仍等于属性个数,说明其设置的时候仍是按没有常数项估计的,只不过最后他利用虚拟变量估计结果,反过来求解出来的。就像有些教程将个体固定效应模型写成下面两种形式中的第2种,本质是一样的,所以有没有常数项不影响估计结果。
360截图20180519171404338.jpg

360截图20180519171404338.jpg
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
日新少年 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

回复

使用道具 举报

黃河泉 在职认证  发表于 2018-5-19 17:26:22 |显示全部楼层
财经节析 发表于 2018-5-19 16:46
首先,我说的就是在个体固定效应变截距面板数据模型下的结论(即我说的失效,是指reghdfe不能控制那些像行 ...
1. 对你的第一点说法,我是同意的。2. 我也同意报不报告常数不重要,但有的审稿人就是要你报告常数项。3. 至于到底 regdhfe 怎么处理常数项,我其实并不是很 care,也没花时间去了解。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
日新少年 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

回复

使用道具 举报

财经节析 发表于 2018-5-19 17:32:23 |显示全部楼层
黃河泉 发表于 2018-5-19 17:26
1. 对你的第一点说法,我是同意的。2. 我也同意报不报告常数不重要,但有的审稿人就是要你报告常数项。3. ...
嗯嗯,我也相信有的审稿人确实很在意这些,此时,能报告还是比不报告还是要好些,至少让审稿人顺心嘛[titter]
回复

使用道具 举报

黃河泉 在职认证  发表于 2018-5-19 17:37:22 |显示全部楼层
财经节析 发表于 2018-5-19 17:32
嗯嗯,我也相信有的审稿人确实很在意这些,此时,能报告还是比不报告还是要好些,至少让审稿人顺心嘛[tit ...
Exactly.
回复

使用道具 举报

somnus91 发表于 2018-5-19 23:43:52 |显示全部楼层
黃河泉 发表于 2018-5-19 15:56
1. 你说 (即reghdfe命令失效) 是不正确的,你的结果中区间与行业 (region and industry) 是因为与你的个体 ...
老师,请问哪里可以用新版reghdfe呢,我今天下的还是旧版
回复

使用道具 举报

黃河泉 在职认证  发表于 2018-5-20 08:15:00 |显示全部楼层
somnus91 发表于 2018-5-19 23:43
老师,请问哪里可以用新版reghdfe呢,我今天下的还是旧版
http://scorreia.com/software/reghdfe/install.html
已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
日新少年 + 1 + 1 + 1 精彩帖子
葫芦娃大王 + 10 + 10 精彩帖子

总评分: 经验 + 10  论坛币 + 10  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

回复

使用道具 举报

陈信研究员 发表于 2018-5-24 19:19:03 |显示全部楼层
财经节析 发表于 2018-5-19 16:46
首先,我说的就是在个体固定效应变截距面板数据模型下的结论(即我说的失效,是指reghdfe不能控制那些像行 ...
请问截图内容是哪一本书的呢,谢谢
回复

使用道具 举报

财经节析 发表于 2018-5-27 18:22:19 |显示全部楼层
陈信研究员 发表于 2018-5-24 19:19
请问截图内容是哪一本书的呢,谢谢
你说的是那一推公式的那个吗?是我写的
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 我要注册

GMT+8, 2018-6-23 20:17