这是我日常操作遇到的问题,查阅了论坛中很多回复,没有清晰的解决办法,经过反复的研究,找出了问题的所在,在这里和大家分享。下面以一个简单的例子来解决这个问题。下面以一个简答的例子来理解,
1、reg roa sif lnage lncopen i.year i.ind if region ==2,vce(cluster code) ;在这个模型中,我控制了年份和行业,同时对个体进行聚类,使用聚类稳健标准误。
上面使用聚类稳健标准误后,F值和显著性都缺失了。点开这个F值的蓝色链接,会有stata对这个问题的解答,大体上缺漏的原因就是因为如果聚类的时候,只有一个code的话,那么就无法实现聚类。但是通过计算每个code的数量的时候,发现最少也有2个,也就是样本公司,最少也有两年的,不存在数据中某个公司只有一个样本的情况。(不过要注意的是,如果你数据中存在这种情况,需要删减掉)
既然不存在样本中code只有一个无法聚类的问题,那么就排除了第一种情况。
2、控制变量年份和行业中,存在某一个行业,在某一年中只有一个样本的情况,于是同样的方法,先检查一下数据,是否存在这样的情况。
果然结果发现,的确存在某个行业,在该年度只有一个样本的情况。
下面删除这些只有一个样本的情况,再次进行回归分析。
现在结果出来了,可以看到F值了。
对上面F值缺漏的情况,总结两种可能的结果,并相应地处理:
1、聚类的个体(上面例子中的code),是否存在只有一个样本的情况。
2、加入年份和行业的控制变量,也要检查,是否存在某个行业在该年度,只有一个样本的情况。