楼主: tzy3169
12191 15

[实际应用] R语言做多元回归遇到多重共线性 [推广有奖]

11
tzy3169 发表于 2016-2-28 16:02:20
Importance of components:
                          Comp.1    Comp.2    Comp.3     Comp.4     Comp.5
Standard deviation     2.0751580 0.8122145 0.7706381 0.58291741 0.26332268
Proportion of Variance 0.7177134 0.1099487 0.0989805 0.05663212 0.01155647
Cumulative Proportion  0.7177134 0.8276622 0.9266427 0.98327479 0.99483126
                            Comp.6
Standard deviation     0.176103526
Proportion of Variance 0.005168742
Cumulative Proportion  1.000000000

Loadings:
         Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
X1       -0.381  0.572 -0.149 -0.650 -0.112  0.267
X2       -0.409  0.267  0.560  0.285 -0.491 -0.355
X3       -0.452                0.545  0.220  0.670
X4       -0.383 -0.427 -0.620        -0.525 -0.100
X5       -0.465        -0.211         0.634 -0.572
综合评分 -0.348 -0.641  0.485 -0.443  0.143  0.129
这是我主成分分析的结果,我选取了一个主成分做回归,
Call:
lm(formula = 综合评分 ~ Z1, data = a1)

Residuals:
     Min       1Q   Median       3Q      Max
-0.14338 -0.08760 -0.04388  0.05203  0.29141

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  4.62671    0.03784 122.279   <2e-16 ***
Z1          -0.04864    0.01928  -2.523   0.0302 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1311 on 10 degrees of freedom
Multiple R-squared:  0.389,        Adjusted R-squared:  0.3279
F-statistic: 6.366 on 1 and 10 DF,  p-value: 0.03022
这是我回归的结果,模型的拟合度低了好多,之前有0.98.现在只有不到0.4,请问这样的模型可以用吗?

12
tzy3169 发表于 2016-2-28 16:02:45
不好意思,刚刚一直发表不了就多发了几遍。

13
hoppanda 发表于 2016-2-28 22:59:25
我猜岭回归你指ridge regression.. 还有你对PCA的分析太依赖课本上的经验推荐了.. 我不认为显著特征值划线非得0.5..

不管Ridge或PC Reg都有一个不好,解释性很低..
上网查下best subset regression,自己写个小程序,才5个变量,写好的程序应该在30秒内能算出来.
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
tzy3169 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

14
藉風說雨 学生认证  发表于 2016-2-29 16:31:51
tzy3169 发表于 2016-2-28 16:02
Importance of components:
                          Comp.1    Comp.2    Comp.3     Comp.4     Com ...
你可以考虑下 1、数据本身少了,需要增加数据;2、模型本身存在问题,你选择的数据并不适合用PCA;3、数据需要scale下,去量纲
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
tzy3169 + 1 + 1 + 1 精彩帖子

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

15
tzy3169 发表于 2016-3-2 22:44:36
谢谢各位的回答,我的数据确实很少只有12条,但是也没法增加,数据是别人给我的,他那就只有这么多,最后还是用的PCA,只不过根据网上查到的资料,最后又将主成分回归的系数和截距换算成了各项系数和截距。

16
tzy3169 发表于 2016-3-2 23:04:18
hoppanda 发表于 2016-2-28 22:59
我猜岭回归你指ridge regression.. 还有你对PCA的分析太依赖课本上的经验推荐了.. 我不认为显著特征值划线非 ...
你说的只求最优子集是吧,我求了,效果也还可以,不过还是希望最好能够保留各个因变量。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 06:16