楼主: 290wangseaman
8369 10

[数据管理求助] 新人请教:关于regress的时候的自变量数据缺失问题 [推广有奖]

  • 0关注
  • 0粉丝

已卖:295份资源

本科生

51%

还不是VIP/贵宾

-

威望
0
论坛币
2110 个
通用积分
1.9425
学术水平
1 点
热心指数
0 点
信用等级
0 点
经验
547 点
帖子
34
精华
0
在线时间
126 小时
注册时间
2010-4-20
最后登录
2025-12-1

楼主
290wangseaman 在职认证  发表于 2010-11-28 18:12:02 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
本人刚接触计量,诚心请教

当我在regress wage on各种自变量的时候,发现其中的一个自变量,比如IQ test的数据大量缺失,初步估计有40%的数据都是空白。

在此种情况下,我是否应该drop掉该自变量?
具体应该是以何种原因说明?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:regress 自变量数 数据缺失 RES REG Stata 数据缺失 自变量

本帖被以下文库推荐

沙发
h3327156 发表于 2010-11-28 23:33:20
您的问题真的算很难。
您问的是drop掉该变量,所以如果这个变数不重要,那拿掉就拿掉吧。

以下的论点是在,该变量不可以拿掉,但该变量有大量缺失值,这样不完整的dataset怎么办…
若要看书,建议Colin amd Trivedi的Microeconomietrics methods and applictions的
Chapter 27 Missing Datat and Imputation是您不错的参考章节。
当然stata的手册[MI]也很值得参考。[SAS也有专门对应的处理方式】

首先,您应该确定您的IQ test的数据大量缺失究竟是怎样的缺失法。
这会扯到缺失机制的问题,在某些缺失机制下【譬如MAR,指missing at random】
则,可忽略。【可忽略的意思是,就在不完整的资料下做吧! 专业一点的术语 listwise delection】

究竟多少缺失比率下,可采用listwis delection?
书上指出 Schafer,1996建议 5%或更少。
但我曾听过这方面的研究,由学弟们报告【哪一篇我实在忘了】
大概最高不得超过30%【比率实在不好说,我不确定,因为这方面的探讨应该一两年前听过的】

最后,如果是问我个人,我觉得该变数实在不宜拿掉。
因为Wooldridge的书,最爱举IQ test对wage的影响。
少掉这变数,一定会被质疑可能有衡量误差…问题。
若这个变数不宜拿掉,则这又带来一个问题,缺失值怎么办?
则stata的[MI]就派上用场了! 至于缺失值该填什么? 我想这是您该自己去想想的问题。
譬如IQ test可能与什么有关? 受教育年数? 年龄? 父母的受教育年数?
等您思索好,则可完成多重插补这些missing value

希望对您有所帮助,写的好累阿! 评个分吧! 哈哈!
已有 4 人评分学术水平 热心指数 信用等级 收起 理由
daydreamingII + 1 + 1 + 1 观点有启发
h894510055 + 1 + 1 + 1 观点有启发
290wangseaman + 1 + 1 + 1 太感谢了
binggol + 1 + 1 + 1 牛人

总评分: 学术水平 + 4  热心指数 + 4  信用等级 + 4   查看全部评分

藤椅
290wangseaman 在职认证  发表于 2010-11-29 00:22:00
2# h3327156


实在太感谢楼上的大侠了,太专业了,哈哈。

我刚才一直在研究这个问题。

关于缺失机制,我实在不好判断是何种原因。因为作业的数据就是这么给的……其他的IQ result的分布也没其他异常,所以不知道是mar还是nmar还是mcar...

IQ对于wage的确是伍德里奇喜欢举的一个例子。我也很像检验他们之间的关系。
问题是我刚才用stata统计了一下,1670个obs,650个mv,缺失率是39%,将近40了。

在缺失率这么大的情况下,用均值填,甚至用multiple imputation算出来的填充数据是否能作准?

等待大侠的回复。

板凳
h3327156 发表于 2010-11-29 01:03:54
用均值代,书上是指没有模型基础下的填代【实在想不出决定IQ test的是什么,那用这个不错】
用MI的方法,这是有模型基础的。

我个人认为,是可以作准的,missing value该填什么,有很多种方法的。
这些方法,很难说哪一个比较好。【虽说也有文献去模拟并比较各种方法!】
但任何一种方法,都希望猜出这些missing vlaue值可能是什么,
而且希望比较大比较多的dataset,进而有比较多的information,
避免模型估计的偏误与不精确。

缺失率再大,放弃绝对不是一个好方法。
均值法或MI法都好,这些方法都是希望更好,不是吗?
至少我们可能越接近完美了!

为尊重前人的研究,建议在使用时,
把stata的手册引用上去,或者书上提到的一些文献,调出来引用上去。
最后,Rubin (1976)那篇,大概这方面的研究都不得不引用的经典文献。

我不是大侠…欢迎讨论。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
290wangseaman + 1 + 1 + 1 thanks

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

报纸
290wangseaman 在职认证  发表于 2010-11-29 04:09:55
4# h3327156


发现处理missing data还真的是一个比较大的课题。。

如果我用均值替代法,在stata中
直接用mean IQ算出来的均值是包括了缺省值的均值还是剔除了缺省值的均值?
比如x1=1,x2=missing,x3=2
mean x=(1+2)/2=1.5?

stata处理缺失数据的默认方式是怎样的呢?
把missing的data当做0处理?

我应该用何种命令去替代缺省数据的均值呢?

地板
h3327156 发表于 2010-11-29 20:17:05
嗯!确实是一个很大的课题。
否则stata手册不会一个[MI”两百多页…看到我都想放弃,不做了!

均值替代法,这边提的是比较不专业的,【所谓不专业,是指就不用stata专属的mi指令去做】
您的问题很好,您指的作法,均值是剔除了缺省值的均值
以下是我建立的一个例子:您参考看看~
1.我假设,sch【受教育年数】而另一变量iq【这就不说了】
2.而misssing的iq均值,由相同sch的个体去构成
【这个作法下的新iq变量,叫newiq】
【这有个盲点,如果相同sch的人,全部都拒答成missing值,则无法计算】
3. newiq2指的是,所有missing的iq值,通通由非misssing的iq均值构成。

input iq sch
iq sch
80 12
90 12
. 11
120 16
80 11
. 9
140 18
70 9
. 9
92 16
end

mean iq

bysort sch: egen missing_iq=mean(iq)
gen newiq=missing_iq if iq==.
replace newiq=iq if iq!=.

egen newiq2=mean(iq)
replace newiq2=iq if iq!=.

sum iq newiq newiq2


最后,也许您想执行multiple imputation,
help mi imp
【要讲实在超多的,不如您好好看手册】
不过在执行mi imp前,
您要先设定一些东西【help mi set】
mi set
………
【简言之,这是在对您missing值资料的设定与插补设定,不废言,看手册】
已有 2 人评分学术水平 热心指数 信用等级 收起 理由
daydreamingII + 1 + 1 + 1 热心帮助其他会员
290wangseaman + 1 + 1 + 1 高手高手高高手

总评分: 学术水平 + 2  热心指数 + 2  信用等级 + 2   查看全部评分

7
290wangseaman 在职认证  发表于 2010-12-3 21:37:56
6# h3327156

谢谢楼上的高手。

请问你在listwise delection里面指出的 Schafer,1996具体是哪篇文章呢?

8
h3327156 发表于 2010-12-4 20:02:45
好奇怪! 我查了一下书,书本内容说是1996年,但后面文献确是1997年。
不过应该是下面的文献【感觉这应该是一本书的样子】
Schafer, J. L. (1997), Analysis of Incomplete Multivariate Data, London, Chapman and Hall.

另外,stata关于MI的文献里,也有几篇Schafer与其它学者的文章,建议您查看看。

9
林木萧 发表于 2012-12-18 23:31:46
如果用均值代入的话,回归模型会有偏差,我们需要再加什么变量去剔除或者减少这种偏差的影响呢?

10
abcuiyes 发表于 2015-1-2 23:39:45
h3327156 发表于 2010-11-29 20:17
嗯!确实是一个很大的课题。
否则stata手册不会一个[MI”两百多页…看到我都想放弃,不做了!
谢谢你提供了两种均值替代处理缺失值的方法,对于连续变量确实很管用。但是如果是类别变量有缺失值时,该怎么处理?比如样本量为100,男有50个,女有30个,缺失20个;如果1=男,0=女,那么性别变量的均值应该为5/8,那么现在性别这个变量就有三个值:0、5/8和1。那么把性别当自变量来回归时,参照组怎么选?5/8是算作参照组里还是比较组里?谢谢!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-29 08:01