完全共线性,它的两个解释变量之间拟合,可以拟合出一条直线;不完全共线性,它的两个解释变量之间的线性相关程度大于0.8。若无特殊说明,通常说的多重共线性就是不完全多重共线性。 共线性会导致标准误较大,对回归系数的估计不精准,方差也就会很大。
2、存在不完全多重共线性时,对模型参数估计产生了哪些影响,导致什么后果?
OLS估计量的方差增大,标准误也较大,置信区间大,预测区间也大,使估计量的精度较低,预测的精度下降。
3、有那些方法用来侦查可能存在的多重共线性?简述每种方法如何做。
一、相关系数检验法:
R语言cor函数,看相关系数矩阵,存在大于0.8的相关系数就说明模型存在严重的多重共线性。
二、辅助回归模型检验法:
把每个解释变量与其余解释变量做OLS估计(R语言用lm函数),辅助回归的F值或者是R²较高,就说明存在严重的多重共线性。
三、回归结果判断发:
(1)、对多元回归模型删减(增加)一个变量的观测值(非异常值),回归参数的估计值和标准误发生较大变化,这种由微小变化引起解释变量的系数发生较大变化的,说明存在严重多重共线性。
(2)、解释变量的回归系数的标准误较大,t统计量的绝对值较小,接受原假设,但是R²高(F检验拒绝原假设),这种情况可以判断模型i存在严重的多重共线性。
(3)、解释变量的符号与经济原理不符合的。
(4)、参数估计值因样本容量的改变而变化的。
四、方差膨胀因子(VIF)检验法:
- library(car)
- vif(lm(y~x))
4、当存在较严重的多重共线性时,如何进行补救?
一、剔除可以被其他变量近似线性组合的变量。
二、增大样本容量。
三、通过取对数和差分改变模型形式(差分在处理时间序列数据时很常用,但是它的缺陷时丢掉了X、Y变量水平值之间的数量关系)。
四、将被解释变量与每一个解释变量回归,依据对被解释变量解释程度大小,逐步引进解释变量,选择最佳的模型,也叫逐步回归法。不要轻易使用!
五、改变估计方法(岭回归、LASSO估计)。
六、主成分分析。
七、不管它的(是的,你没有听错,放弃挣扎,每种补救方法都是有缺陷的,可能会产生更多麻烦,不严重的多重共线性放过它也是放过自己(*ฅ́ˇฅ̀*))。
5、岭估计相对于OLS估计的改进思路如何体现?
岭回归是一种改进的OLS方法,它以牺牲OLS估计的无偏性和部分精度,来找到更符合实际的回归模型(详情参考各类文献(⑅˃◡˂⑅))。
6、如何分析6种岭迹分析图的特征?
图中最左边的点代表解释变量对被解释变量的影响程度。
a:随着k的增大,曲线显著下降,并迅速趋于0,从而失去预报能力,可以去掉该变量。
b:该变量对被解释变量有显著的负影响。
c:从古典回归分析看,最左边那个点的值很显著,解释变量对被解释变量有正的显著影响。从岭回归分析看,解释变量对被解释变量有负的影响。
d:保留β2。
e:十分不稳定,看着较乱,有问题。
f:最小二乘法估计的结果好。
7、LASSO算法的基本实现思路。
最小二乘法引入惩罚项: