|
坛友flagship:赵老师好!有几个问题,希望老师解答~
(1).关于离群值的问题。如果存在离群值的话,对回归的正负有很大影响。如果该离群值是正确的,也就是该观测值确实就是这样的,是否应该包括在样本中?
(2).虚拟变量的引入的话,对于样本中该变量取值为1的数量是否有限制?或者说,如果一个很大的样本,虚拟变量为1的观测值很少的话,这样回归得到的结论是否可信?
(3).如果解释变量和被解释变量的数量级相差很大,那回归系数或者很大,或者很小。在这种情况下调整解释变量的数量级应该是合理的吧?那调整多少才比较合适呢?
(4).截面或者面板数据下的OLS,GLS回归对于数据的正态分布是否有要求?
(5).在用EVIEWS做面板数据回归分析时,发现采用不同的权重得到的结果差异好大(GLS Weight, Coef Covaricance Method),这种情况下应该怎么选择呢?如果选择那些回归结果的方法是不是有待商榷?
非常感谢赵老师!
这个问题我邀请我们统计学院吴翌琳博士回答:
关于问题(1)离群值是否放入模型,关键看你考虑的是发现样本之间的总体规律还是研究离群样本。比如企业样本的模型研究中,如果大部分的企业都是中小企业,产值变量取值较小,而有一两个大企业参杂到这个样本中,那么这两个企业在分析的时候就会被视为离群点,如果要考察中小企业的一般趋势,那么我建议还是把这两个离群点拿掉,这样才会使得模型结果更为真实的反应想要得到的趋势。如果样本在某一重要属性上却是分为两个差距甚远的水平,但是研究又需要针对全部样本,那么我建议您对样本先做分类处理在进行分析。
关于问题(2),虚拟变量的设置是不受这种分类比例的影响的,比方说一个模型里100个样本中95个是男生,5个是女生,那么虚拟变量的引入还是能够区分性别差异对于我们所关注的变量的影响,对于回归的结果不会有太大的影响,当然如果虚拟变量中取1的比例过低,那么这种差异可能会被掩盖,换句话说虚拟变量可能不显著,所以当要考察某个虚拟变量的影响时,是保证样本的比例差距不要太大为宜。
(3)关于数量级的调整,应该说改变变量的数量级是完全不会影响回归结果的,因此为了使得回归结果好看和易于解释,适当改变数量级是正确的选择,比如说,关于某企业的产值,样本数据给出的是元,而模型中另一变量,该企业工人的时薪,也是元,但这两个变量在取值上会有很大的数量级差异,这时候我会建议将产值的数量级改为亿元,这样出来模型结果也易于解释。当然不改变数量级,考察标准化后的回归系数也是一种方法,可以根据数据问题进行选择。
(4)OLS回归是存在其经典的基本假定的,其中很重要的一点就是其随机误差项服从零均值、同方差、零协方差的正态分布。而GLS的产生,就是为了处理对那些不满足OLS同方差和序列不相关假定的数据,因此两者对于数据随机误差项的正态性假定是一样的。
(5)Eviews在估计面板数据的时候,给出的五种权重选择是根据数据的不同性质决定的,如果数据不存在异方差和自相关问题,是不需要加权的,而存在个体异方差时,选择Cross-section weights,存在时间异方差时,选择Period weights,因此,不同权重的选择不是根据回归结果来判断,而是要对数据做好前期的异方差和自相关检查后,再做决定。建议你参考一下Eviews的软件书籍。
|