楼主: zdd。。
9656 10

[问答] 用R语言做回归分析,为什么自变量与因变量相关系数是正相关,回归得到的系数是负相关 [推广有奖]

  • 0关注
  • 0粉丝

高中生

87%

还不是VIP/贵宾

-

威望
0
论坛币
5 个
通用积分
1.5743
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
641 点
帖子
25
精华
0
在线时间
31 小时
注册时间
2014-11-18
最后登录
2016-5-1

楼主
zdd。。 发表于 2016-4-19 21:59:06 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
回归后的VIF值也不大啊,这个要用什么解决啊?求大神帮忙啊?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:回归分析 相关系数 因变量 自变量 R语言 回归分析 因变量 自变量

沙发
robbieyeah 发表于 2016-4-19 22:06:26
给个例子

藤椅
zdd。。 发表于 2016-4-19 22:22:39
robbieyeah 发表于 2016-4-19 22:06
给个例子
> cor(dt)
          Y       X1       X2       X3       X4       X5       X6       X7       X8       X9
Y   1.00000  0.91321  0.39624  0.62225  0.65082  0.32599 -0.29950 -0.23087  0.26687 -0.08998
X1  0.91321  1.00000  0.53889  0.59236  0.73131  0.38184 -0.15522 -0.35249  0.18238 -0.04305
X2  0.39624  0.53889  1.00000  0.32984  0.56939  0.20025 -0.09374 -0.43817  0.02971  0.12010
X3  0.62225  0.59236  0.32984  1.00000  0.52144 -0.03112 -0.47090 -0.08988  0.27215  0.06434
X4  0.65082  0.73131  0.56939  0.52144  1.00000  0.07544 -0.28853 -0.03899  0.31786 -0.26465
X5  0.32599  0.38184  0.20025 -0.03112  0.07544  1.00000  0.35186 -0.53474 -0.24747  0.05003
X6 -0.29950 -0.15522 -0.09374 -0.47090 -0.28853  0.35186  1.00000 -0.12701 -0.54097 -0.06658
X7 -0.23087 -0.35249 -0.43817 -0.08988 -0.03899 -0.53474 -0.12701  1.00000  0.37833 -0.62926
X8  0.26687  0.18238  0.02971  0.27215  0.31786 -0.24747 -0.54097  0.37833  1.00000 -0.34441
X9 -0.08998 -0.04305  0.12010  0.06434 -0.26465  0.05003 -0.06658 -0.62926 -0.34441  1.00000





> lmxy<-lm(Y~X1+X2+X3+X4+X5+X6+X7+X9+X9,data=dt)
> lmxy

Call:
lm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X7 + X9 + X9,
    data = dt)

Coefficients:
(Intercept)           X1           X2           X3           X4           X5           X6           X7  
     4.6361       0.5507      -0.1473       2.9388      -0.1607       0.0439      -0.4906       0.0560  
         X9  
    -0.1019  

> summary(lmxy)

Call:
lm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X7 + X9 + X9,
    data = dt)

Residuals:
    Min      1Q  Median      3Q     Max
-18.505  -2.656   0.001   2.388  25.700

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  4.63610    2.69071    1.72  0.08527 .  
X1           0.55071    0.01355   40.65  < 2e-16 ***
X2          -0.14735    0.03170   -4.65  3.9e-06 ***
X3           2.93882    0.82798    3.55  0.00041 ***
X4          -0.16070    0.03470   -4.63  4.2e-06 ***
X5           0.04388    0.00816    5.38  9.9e-08 ***
X6          -0.49060    0.03936  -12.46  < 2e-16 ***
X7           0.05604    0.01837    3.05  0.00235 **
X9          -0.10189    0.04580   -2.22  0.02639 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.67 on 812 degrees of freedom
Multiple R-squared: 0.884,      Adjusted R-squared: 0.883
F-statistic:  775 on 8 and 812 DF,  p-value: <2e-16

> library(DAAG)
> vif(lmxy,digit=3)#vif(方差膨胀因子)的值大于10则存在共线性
  X1   X2   X3   X4   X5   X6   X7   X9
3.85 2.02 2.12 3.45 2.11 1.56 3.84 2.59

板凳
jiangbeilu 学生认证  发表于 2016-4-19 22:28:10
相关系数为正,那是因为没有控制其它变量.
当你加入其它变量的时候,会有联合影响。也有可能是变量间有共线性影响。

报纸
zdd。。 发表于 2016-4-19 22:28:16
因子分析、主成分回归弄出来也都是这样。。。

地板
zdd。。 发表于 2016-4-19 22:33:24
jiangbeilu 发表于 2016-4-19 22:28
相关系数为正,那是因为没有控制其它变量.
当你加入其它变量的时候,会有联合影响。也有可能是变量间有共线性 ...
那不是可以用主成分来消除共线性影响吗?可是主成分回归后还是那种情况啊?学霸帮帮忙啊

7
jiangbeilu 学生认证  发表于 2016-4-19 22:35:03
zdd。。 发表于 2016-4-19 22:33
那不是可以用主成分来消除共线性影响吗?可是主成分回归后还是那种情况啊?学霸帮帮忙啊
你用逐步回归试试,看看加入了哪个变量后,符号变了。
你单独回归,符号肯定是正的嘛

8
zdd。。 发表于 2016-4-19 22:42:04
jiangbeilu 发表于 2016-4-19 22:35
你用逐步回归试试,看看加入了哪个变量后,符号变了。
你单独回归,符号肯定是正的嘛
还是一样,只不过把其中有一个和因变量相关性不强的给剔除了,正负还是一样的

9
ntlsmile 发表于 2016-4-19 22:45:36
不太了解

10
zdd。。 发表于 2016-4-19 22:47:36
robbieyeah 发表于 2016-4-19 22:06
给个例子
> cor(dt)
          Y       X1       X2       X3       X4       X5       X6       X7       X8       X9
Y   1.00000  0.91321  0.39624  0.62225  0.65082  0.32599 -0.29950 -0.23087  0.26687 -0.08998
X1  0.91321  1.00000  0.53889  0.59236  0.73131  0.38184 -0.15522 -0.35249  0.18238 -0.04305
X2  0.39624  0.53889  1.00000  0.32984  0.56939  0.20025 -0.09374 -0.43817  0.02971  0.12010
X3  0.62225  0.59236  0.32984  1.00000  0.52144 -0.03112 -0.47090 -0.08988  0.27215  0.06434
X4  0.65082  0.73131  0.56939  0.52144  1.00000  0.07544 -0.28853 -0.03899  0.31786 -0.26465
X5  0.32599  0.38184  0.20025 -0.03112  0.07544  1.00000  0.35186 -0.53474 -0.24747  0.05003
X6 -0.29950 -0.15522 -0.09374 -0.47090 -0.28853  0.35186  1.00000 -0.12701 -0.54097 -0.06658
X7 -0.23087 -0.35249 -0.43817 -0.08988 -0.03899 -0.53474 -0.12701  1.00000  0.37833 -0.62926
X8  0.26687  0.18238  0.02971  0.27215  0.31786 -0.24747 -0.54097  0.37833  1.00000 -0.34441
X9 -0.08998 -0.04305  0.12010  0.06434 -0.26465  0.05003 -0.06658 -0.62926 -0.34441  1.00000
> lmxy<-lm(Y~X1+X2+X3+X4+X5+X6+X7+X8+X9,data=dt)
> lmxy

Call:
lm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9,
    data = dt)

Coefficients:
(Intercept)           X1           X2           X3           X4           X5           X6           X7  
    59.5867       0.5528      -0.1461       2.8870      -0.1616       0.0438      -0.5116       0.0593  
         X8           X9  
    -0.0537      -0.1095  

> summary(lmxy)

Call:
lm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9,
    data = dt)

Residuals:
    Min      1Q  Median      3Q     Max
-18.450  -2.642  -0.033   2.370  25.743

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) 59.58669   58.97967    1.01  0.31266   
X1           0.55281    0.01373   40.25  < 2e-16 ***
X2          -0.14609    0.03173   -4.60  4.8e-06 ***
X3           2.88702    0.82991    3.48  0.00053 ***
X4          -0.16160    0.03472   -4.66  3.8e-06 ***
X5           0.04384    0.00816    5.37  1.0e-07 ***
X6          -0.51165    0.04537  -11.28  < 2e-16 ***
X7           0.05933    0.01870    3.17  0.00157 **
X8          -0.05370    0.05757   -0.93  0.35127   
X9          -0.10946    0.04652   -2.35  0.01886 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.67 on 811 degrees of freedom
Multiple R-squared: 0.884,      Adjusted R-squared: 0.883
F-statistic:  689 on 9 and 811 DF,  p-value: <2e-16

> vif(lmxy,digit=3)#vif(方差膨胀因子)的值大于10则存在共线性
  X1   X2   X3   X4   X5   X6   X7   X8   X9
3.96 2.03 2.12 3.45 2.11 2.08 3.98 1.89 2.67

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-1 19:47