人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › R多元线性回归容易忽视的几个问题（2）多重共线性的克服

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: jpld

11890 2

[学习分享] R多元线性回归容易忽视的几个问题（2）多重共线性的克服 [推广有奖]

2关注
50粉丝

讲师

还不是VIP/贵宾

威望: 0 级
论坛币: 1268 个
通用积分: 2.1233
学术水平: 120 点
热心指数: 120 点
信用等级: 99 点
经验: 1249 点
帖子: 192
精华: 0
在线时间: 271 小时
注册时间: 2009-5-29
最后登录: 2022-3-1

楼主

jpld 发表于 2015-12-10 14:07:48 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

书接上回

如果存在着严重的多重共线性，则需要使用合适的方法尽量地降低多重共线性，有两种比较常用的方法：

一、逐步回归

逐步回归主要分为向前逐步回归（forward）、向后逐步回归(backward)和向后向前逐步回归（both）。逐步回归本身并不是一种新的回归或者参数的估计方法，所用到的参数估计方法都是原来的，是从众多的变量中选出最优模型的变量的一套方法。

即假如因变量Y ，4 个自变量分别是X1 ，X2 ， X3 ，X4 。当所有自变量都进入到模型中时，Y =α +β1X1+β2X2 +β3X3 +β4X4 +μ 。现在是如何利用逐步回归方法从中选取最优的模型？

向前逐步回归的思路是逐个引入变量。具体来讲是，先用因变量与每个自变量都进行回归，选取最优的模型，假如第一步选取的最优模型是Y =α +β1X1 +μ ；接着在第一步的最优模型的基础上，从剩余的变量X2，X3 ，X4 中每个分别加入到第一步的最优模型中，得Y =α +β1X1 +βj Xj +μ ， j = 0,2,3,4， j = 0即为Y =α +β1X1 +μ ，比较这四个模型，如果发现模型Y =α +β1X1 +β3X3+μ 最优；接着再在第二步的最优模型Y =α +β1X1 +β3X3 +μ 上，从剩余的变量X2， X4中每个分别加入到第二步的最优模型中，得Y =α +β1X1+β3X3+βjXj+μ ， j = 0,2,4，比较这三个模型，如果 j = 0时，模型最优，则最终选取的最优模型是Y =α +β1X1 +β3X3+μ

向后逐步回归的思路是先引入全部自变量，然后逐个剔除不重要的变量，其剔除变量的

思路和向前逐步回归的思路类似。向后向前逐步回归先逐步剔除变量，但可以后面的步骤中重新引入原先被剔除的变量，其方向是双向的，而向后逐步回归的自变量一旦被剔除后，在后面的步骤中就不会被重新引入，是单向的。

注意，上文所指的最优模型一般通过一些准则来确定，比如F 值、可决系数R2、

AIC 等。

继续上篇提到的财政收入影响因素的例子：

首先介绍一下step函数的用法，它是属于stats包，使用之前需先加载。

step(object, scope,scale = 0,

direction = c("both","backward", "forward"),

trace = 1, keep = NULL, steps = 1000, k =2, ...)

向前逐步回归的最优模型是把所有自变量都引入模型，没有剔除任何变量。

向后逐步回归中，从AIC最小的变量依次逐步剔除了农业，建筑业，受灾三个变量，第四步不剔除变量时最优，即最终模型中包含工业，人口，消费三个变量。

二、岭回归

当解释变量之间存在多重共线性时，即X′X ≈ 0，则Var(βˆ) =σ 2 (X′X)−1将会增大，原因是X′X接近奇异。如果将X′X加上一个正常数对角阵λ I （λ > 0，I 为单位矩阵）即X′X +λ I，使得 X′X+λI ≈ 0的可能性比 X′X ≈ 0的可能性更小，那么X′X +λ I接近奇异的程度就会比X′X小的多，这就是岭回归的最初想法。

R里MASS包的lm.ridge()函数可以用来做岭估计，其用法与lm()用法类似。

可以证明β 的岭回归估计为βˆ (λ) = (X’X+λI)-1 X’Y

λ 称为岭参数.岭估计的关键是选取岭参数λ，岭迹法是选取岭参数λ的常用方法之一。若记βˆ (λ)为βiˆ (λ )的第i个分量，它是λ 的一元函数。当λ 在[0,∞)上变化时，βˆ (λ)的图形称为岭迹（ridge trace）。βˆ (λ )的每个分量βj ˆ(λ ) 的岭迹画在同一个图上，根据岭迹的变化趋势选择λ值，使得各个回归系数的岭估计大体上稳定，并且各个回归系数岭估计值的符号比较合理并符合实际。

lm.r是属于MASS包的，用法和lm类似

> lm.r<-lm.ridge(revenue~industry+agriculture+construction+consumption+pop+disaster,data=dat)> lm.r industry agriculture construction consumption 6.821406e+04 1.296967e-01 -7.065467e-02 4.465321e-02 6.011086e-01 pop disaster -7.020226e-01 4.323570e-02

不指定λ值时，默认为0，结果和OLS一致。下面生成一个lambda序列，从0到0.3，间隔0.001,。同时把不同参数的估计值βˆ (λ )估计出来，画出岭迹图。如下：

当λ取0.25-0.3之间时，参数的估计大致趋于稳定。

> select(lm.ridge(revenue~industry+agriculture+construction+consumption+pop+disaster,data=dat,lambda=seq(0,0.3,0.001)))modified HKB estimator is 0.003136352 modified L-W estimator is 0.002329019 smallest value of GCV at 0.004

通过select函数可以选取更为精确的岭参数，本例中我们取λ=0.004

> lm.ridge(revenue~industry+agriculture+construction+consumption+pop+disaster,data=dat,lambda=0.004) industry agriculture construction consumption pop disaster 5.662106e+04 1.439691e-01 -3.539058e-03 1.146925e-01 5.037839e-01 -5.970767e-01 4.829628e-02

再代入到lm.ridge（）函数中，就可以估计出相应的岭估计结果。

本节完，下节开始讲异方差性问题。、