首先你得明白什么是共线性
在数据矩阵里,因变量矩阵类似于
y1
y2
y3.
.
.
自变量也就是等式右边的矩阵类似于
1 x21 x31 x41...
1 x22 x32 x42...
1 x23 x33 x43...
1 x24 x34 x44...
其中1其实是截距项对应的x1(默认在样本里永远是1,省去不写)
所谓共线性,也就是说上述的第二个矩阵不是满秩的,也就是列向量线性相关,即存在一组非零实数(a1,a2,a3...),可以使a1+a2x2+a3x3+...=0
------------------------------------
考虑到一个模型,引入虚拟变量,有两个取值,而引入了两个虚拟变量D2 D3,该模型有截距项(也就是说有永远为1的x1),无其他自变量,则他的样本矩阵一定是类似
1 1 0
1 0 1
1 1 0
1 1 0
1 0 1
...
发现这个矩阵并不是满秩的,因为第二列+第三列刚好等于第一列
所以说这时候是进入“陷阱“了,出现完全共线了
---------------------------------------------------------------
如果模型不含截距呢,发现矩阵变成了
1 0
1 0
0 1
1 0
...
这个矩阵是满秩的,也就是各列向量并不是线性相关。
故此时,没有共线。




雷达卡




京公网安备 11010802022788号







