9111 3

[一般统计问题] 控制变量、遗漏解释变量偏误与内生性 [推广有奖]

  • 0关注
  • 0粉丝

高中生

97%

还不是VIP/贵宾

-

威望
0
论坛币
1 个
通用积分
1.0000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
336 点
帖子
4
精华
0
在线时间
74 小时
注册时间
2019-3-30
最后登录
2023-11-1

楼主
啊飒飒的上升 发表于 2020-4-13 14:27:41 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
求大神解答,一个关于控制变量的问题,,我和老师已经快要吵起来了。。。。
就是我们在考虑收入y,核心解释变量为是否上大学C,以及控制变量职业(白领or蓝领)O
模型就是y=a0+a1*C+a2*O+ut   (认为C和O都和遗漏解释变量无关)(这就是个假定别问我咋得到的。。。)

认为a1和E[y|O=0,C=1]-E[y|O=0,C=0]

or   

E[y|O=1,C=1]-E[y|O=1,C=0]

关于这个系数的偏差问题,我思考的是:
  因为O和C是有关的,因此当控制O时C的变化会使得除C外影响O的其他因素也发生变化
  但是影响O的其他因素的变化就不属于决定y的模型中的遗漏变量啊,那这些因素的变化怎么会影响y呢?


但是老师说,,这个就是有选择性偏差问题。。
我明白固定O时C变化确实会使得部分其他因素发生变化呀,但是如果这些因素根本就不属于遗漏变量的话,这样的偏差也不会影响到y吧
(当然,我和老师一致认为,由于不知道真实模型是什么,所以需要进行实际的检验,根据检验结果而定)

不过还有一个问题是,,如果C和O都是和遗漏变量无关的,那加入O以后,虽然O和C之间相关,进行回归的结果不也是无偏的吗?。。。

最后我的一个问题:选择性偏差产生的原因,就是因为和遗漏变量相关(比如上大学和收入之间的关系,可能是上大学和能力之间有关系导致的选择性偏差,那这种偏差不就是因为遗漏了能力这个解释变量,而且上大学和能力之间有关而导致的吗)结果老师直接说不是不是。。。。

和老师说了很久很久。。。。不敢再跟老师说了,,恳求各位大神能够和我讲一下到底是怎样的。。。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


沙发
rhapsodyr 发表于 2020-4-13 16:33:24
"(认为C和O都和遗漏解释变量无关)(这就是个假定别问我咋得到的。。。)"这是一个极强的假定。哪怕中文杂志,稍微好一点点的杂志,放在今天,是不会有审稿人接受的。  除非你是做的RCT。

明显,这上大学 和 蓝白领 都会受到比如智商的影响,而智商由于难以获得,就进了误差项。这三者会相互comove,形式就会造成 你核心关注的C和误差项相关, $E [C \cdot \mu | controls] \neq 0$,即遗漏关键变量导致的内生性出现。


要解决,只能找IV,或者通过高校扩招等外生冲击来构造识别策略。

http://gen.lib.rus.ec/

藤椅
啊飒飒的上升 发表于 2020-4-13 20:42:01 来自手机
rhapsodyr 发表于 2020-4-13 16:33
"(认为C和O都和遗漏解释变量无关)(这就是个假定别问我咋得到的。。。)"这是一个极强的假定。哪怕中文杂 ...
感谢回复!这不是文章idea,,就是一个题。。。
就是我认为,,选择性偏差就是一种特殊的遗漏解释变量,是遗漏解释变量和包含变量之间相关导致的一种偏差,但老师说不是这样的。。。
请问遗漏解释变量和选择性偏差之间的关系是什么呀?。。。

板凳
rhapsodyr 发表于 2020-4-14 09:55:05
啊飒飒的上升 发表于 2020-4-13 20:42
感谢回复!这不是文章idea,,就是一个题。。。
就是我认为,,选择性偏差就是一种特殊的遗漏解释变量,是 ...
我不知道你的“选择性偏差”指的是什么。

如果你是说选择偏误(selection bias),与内生性的定义有区别,但两者都最终导致同一结果,即$E[C \cdot \mu | controls] \neq 0$。

两者的差异就一处,即选择偏误专门指,某一信息(假定)可以观测的时候你没有考虑,而这一信息会影响处理组和控制组的分配,如父母是否接受过高等教育、父母收入水平等数据可以获得,且可能通过代际传递,影响个体上大学(即处理组)还是没上大学(即控制组),而此时你没有考虑(控制 and/or 匹配)进来。按照Rubin因果推断框架,它直接就是这个意思:

$E[Y^0|C=1, controls]-E[Y^0|C=0, controls] \neq 0$

可以证明,这一问题实际上也蕴含了$\Rightarrow E[C \cdot \mu | controls] \neq 0$。

遗漏变量是有一个或一些变量很关键,但往往没有数据,所以没有控制进来,直接就导致了$E[C \cdot \mu | controls] \neq 0$。

这组概念大部分人都是搞混了的,包括中文顶级期刊的90%文章。一个好记的就是,选择偏误是指selection on the observable,内生性是selection on the unobservable


------
如果你的"选择性偏差"是指sample selection,特指样本的收录范围存在问题。这也会有内生性,但这个问题及曾经风靡的Heckman两步,现在一般是不这么考虑的。


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-15 07:40