我做了一个logistic回归:假设我的核心解释变量为X1,当不纳入任何变量的时候,P值为0.000;当纳入基本人口学变量后,P值为0.003,当纳入了其他控制变量(尤其是某个变量,我把它命名为X2)后,X1不再显著。这样的结果应当如何解释?X与Y虚假相关?X2通过X1对Y起作用?PS:我测了一下,X1与X2相关度为25%。
我以前读过Stage出版社的一本原著绿皮书,讲到过这个问题,但是我有点不记得了,原理是不是这样的:Y=a+b1X1+e(X2),当没有纳入X2时,b1显著,此时X2其实在e里面,而X2与X1相关。当纳入X2后(由于X1与X2相关),X1对Y的解释力被X2稀释下降甚至不显著。这只是一种解释,我记得有好几种可能性的解释。
像我这里的情况,X1与X2其实没有高度相关,但是X1不再显著,是不是实际上X1与Y是虚假相关(spurious relationship)?