楼主: tzy3169
11541 15

[实际应用] R语言做多元回归遇到多重共线性 [推广有奖]

11
tzy3169 发表于 2016-2-28 16:02:20 |只看作者 |坛友微信交流群
Importance of components:
                          Comp.1    Comp.2    Comp.3     Comp.4     Comp.5
Standard deviation     2.0751580 0.8122145 0.7706381 0.58291741 0.26332268
Proportion of Variance 0.7177134 0.1099487 0.0989805 0.05663212 0.01155647
Cumulative Proportion  0.7177134 0.8276622 0.9266427 0.98327479 0.99483126
                            Comp.6
Standard deviation     0.176103526
Proportion of Variance 0.005168742
Cumulative Proportion  1.000000000

Loadings:
         Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
X1       -0.381  0.572 -0.149 -0.650 -0.112  0.267
X2       -0.409  0.267  0.560  0.285 -0.491 -0.355
X3       -0.452                0.545  0.220  0.670
X4       -0.383 -0.427 -0.620        -0.525 -0.100
X5       -0.465        -0.211         0.634 -0.572
综合评分 -0.348 -0.641  0.485 -0.443  0.143  0.129
这是我主成分分析的结果,我选取了一个主成分做回归,
Call:
lm(formula = 综合评分 ~ Z1, data = a1)

Residuals:
     Min       1Q   Median       3Q      Max
-0.14338 -0.08760 -0.04388  0.05203  0.29141

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  4.62671    0.03784 122.279   <2e-16 ***
Z1          -0.04864    0.01928  -2.523   0.0302 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1311 on 10 degrees of freedom
Multiple R-squared:  0.389,        Adjusted R-squared:  0.3279
F-statistic: 6.366 on 1 and 10 DF,  p-value: 0.03022
这是我回归的结果,模型的拟合度低了好多,之前有0.98.现在只有不到0.4,请问这样的模型可以用吗?

使用道具

12
tzy3169 发表于 2016-2-28 16:02:45 |只看作者 |坛友微信交流群
不好意思,刚刚一直发表不了就多发了几遍。

使用道具

13
hoppanda 发表于 2016-2-28 22:59:25 |只看作者 |坛友微信交流群
我猜岭回归你指ridge regression.. 还有你对PCA的分析太依赖课本上的经验推荐了.. 我不认为显著特征值划线非得0.5..

不管Ridge或PC Reg都有一个不好,解释性很低..
上网查下best subset regression,自己写个小程序,才5个变量,写好的程序应该在30秒内能算出来.
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
tzy3169 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

14
藉風說雨 学生认证  发表于 2016-2-29 16:31:51 |只看作者 |坛友微信交流群
tzy3169 发表于 2016-2-28 16:02
Importance of components:
                          Comp.1    Comp.2    Comp.3     Comp.4     Com ...
你可以考虑下 1、数据本身少了,需要增加数据;2、模型本身存在问题,你选择的数据并不适合用PCA;3、数据需要scale下,去量纲
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
tzy3169 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

15
tzy3169 发表于 2016-3-2 22:44:36 |只看作者 |坛友微信交流群
谢谢各位的回答,我的数据确实很少只有12条,但是也没法增加,数据是别人给我的,他那就只有这么多,最后还是用的PCA,只不过根据网上查到的资料,最后又将主成分回归的系数和截距换算成了各项系数和截距。

使用道具

16
tzy3169 发表于 2016-3-2 23:04:18 |只看作者 |坛友微信交流群
hoppanda 发表于 2016-2-28 22:59
我猜岭回归你指ridge regression.. 还有你对PCA的分析太依赖课本上的经验推荐了.. 我不认为显著特征值划线非 ...
你说的只求最优子集是吧,我求了,效果也还可以,不过还是希望最好能够保留各个因变量。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-18 00:08