【符号说明】被解释变量:Y
解释变量:X
控制变量:A、B、C
【问题描述】
现在想研究因素X对Y的影响如何(正相关还是负相关),但是同时Y又会收到A、B、C因素的影响。
从文献中发现,前面的学者是这样做的:
首先,建立模型1:Y=rX+e(r 为系数,e 为残差),进行Logistic回归;
然后,建立模型2:Y=rX+aA+bB+cC+e(r、a、b、c 为系数,e为残差),再进行Logistic回归;
最后,通过对比模型1和2的区别进行讨论。
我的问题来了。
我猜测这些作者的意图是,建立模型1看X和Y的关系,然后建立模型2,这时的模型2已经加入控制变量。
通过 没有添加 和 有添加 控制变量的模型进行对比。
得到 没有控制变量 的时候,X对Y的影响是正(/负)相关的,添加了控制变量后,X对Y的影响也还是正(/负)相关的。
我想问的是,这样通过添加控制变量的做法是否合理呢?!
个人感觉是不够合理的,因为这样做,只是纯粹的添加或者删除了控制变量,而不是真正意义上“控制”了控制变量。
如果是不够合理的,那我想请教一下有没有别的更加合理的做法呢?


雷达卡



京公网安备 11010802022788号







