我进行线性回归,数据量很大,大约100万行的数据;自变量大约13个;
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.27896 0.01592 17.527 < 2e-16 ***
sig1 0.24567 0.03197 7.684 1.54e-14 ***
sig2 0.33738 0.03101 10.881 < 2e-16 ***
sig3 0.04609 0.02155 2.139 0.032473 *
sig4 0.56368 0.02644 21.320 < 2e-16 ***
sig5 0.35054 0.02887 12.140 < 2e-16 ***
sig6 -0.05031 0.02243 -2.243 0.024918 *
sig7 0.25955 0.02028 12.795 < 2e-16 ***
sig8 -0.07816 0.02318 -3.372 0.000746 ***
sig9 0.13277 0.02985 4.448 8.68e-06 ***
sig10 -0.21858 0.02903 -7.531 5.06e-14 ***
sig11 0.22007 0.02071 10.626 < 2e-16 ***
sig12 -0.25203 0.02532 -9.952 < 2e-16 ***
sig13 0.07252 0.02799 2.591 0.009575 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9.678 on 381729 degrees of freedom
(4153 observations deleted due to missingness)
Multiple R-squared: 0.009823, Adjusted R-squared: 0.009789
F-statistic: 261.4 on 13 and 381729 DF, p-value: < 2.2e-16
在进行共线性检验的时候,用了方差膨胀因子的方法,但是不太了解。
百度上面描述如下:
方差膨胀因子(Variance Inflation Factor,VIF):容忍度的倒数,VIF越大,显示
共线性越严重。经验判断方法表明:当0<VIF<10,不存在
多重共线性;当10≤VIF<100,存在较强的多重共线性;当VIF≥100,存在严重多重共线性
我检验发现各个自变量的VIF都是小于3;所以应该认为是不存在共线性了。
不过我检验了其中几个变量,发现有两对变量(都是日频率的经济数据)的月度相关性约为80%;对此不解
是否VIF检验说10以下没有共线性,是要求不是大规模的数据啊。
谢谢