坛友reduce_fat:教授好,我本科是用英语读的经济专业。大四时曾上过初级计量学,当时我们老师教我们分析(Multiple Linear Regression Models)多变量线形回归模型时,曾讲过一个关于(Multicollinearity) 多重共线性的问题。其实就是多个预测变量(predictor variables) 之间因存在很高的相关性导致对回归分析估计的不准确。
我大四时也在导师手下做过一个关于国际贸易的研究项目,老师只是给我一些指导,主要的数据分析还是由我自己完成。当时我稍微修改了一下老师的模型,并加入新的变量后,模型变成:
说明:我的导师的模型中Yi 和 Yj 的国家数量是对等的,这样没有导致多重共线性,可是我想研究的是美国和其56个贸易对象国之间的贸易关系。所以我的Yi 只是美国的GDP,但是Yj 却是美国的56个贸易对象国的GDP)
TVij = β1 * (A*Yi^α1 * Yj^α2)/Dij^α3 * exp(β2 * LA1ij + β3 * LA2ij + β4 *C L1ij + β5 *C L2ij + β6 * LBij + β7 * vij + β8* evij + β9 * ECi * ECj + β10 * ECi *ECj * evij + εij),
TVij 是美国年度进出口总量,
Yi 是美国年度GDP, Yj是美国贸易对象国的年度GDP, Dij是美国和其贸易对象国的距离,
LA,CL, LB 都是dummy variables (虚拟变量),
evij 是两国间的汇率波动性,
ECi 是居住在美国的一个国家的外国人,如法国人所占美国总人口的比例,
ECj 是居住在美国贸易对象国的法国人所占贸易对象国总人口的比例。
另外我还有美国和其50多个贸易对象国的每个预测变量的20年左右的数据。模型的构建细节这里就不说了,很长的。
多重共线性在我的模型里出现的原因是因为美国的GDP在20年里变化的多少和速度远不及其50多个贸易对象国的GDP的变化。同样合居住在美国的56个贸易对象国的法国人所占比例变化的速度远超于居住在美国的法国人的比例。 这样我的两个预期变量 Yi (美国GDP)和 ECi (居住在美国的法国人所占美国总人口的比例)之间会有很大的相关关系(correlation)。
这两个变量都是我要主要研究的预期变量,不能被删除。但他们在一起就会对我的多变量线性回归模型产生多重共线性的问题。
请问我需要怎么做才能解决这个多重共线性的问题?我直到毕业时都没能解决这个问题,您能帮我解答一下吗?谢谢。