新人请教：关于regress的时候的自变量数据缺失问题 - Stata专版

0关注
0粉丝

已卖：295份资源

本科生

51%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 2110 个
通用积分: 1.9425
学术水平: 1 点
热心指数: 0 点
信用等级: 0 点
经验: 547 点
帖子: 34
精华: 0
在线时间: 126 小时
注册时间: 2010-4-20
最后登录: 2025-12-1

楼主

290wangseaman

发表于 2010-11-28 18:12:02 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

本人刚接触计量，诚心请教

当我在regress wage on各种自变量的时候，发现其中的一个自变量，比如IQ test的数据大量缺失，初步估计有40%的数据都是空白。

在此种情况下，我是否应该drop掉该自变量？
具体应该是以何种原因说明？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏3 回帖

关键词：regress 自变量数数据缺失 RES REG Stata 数据缺失自变量

本帖被以下文库推荐

· Crush for Stata|主题: 69, 订阅: 9

沙发

h3327156 发表于 2010-11-28 23:33:20

您的问题真的算很难。
您问的是drop掉该变量，所以如果这个变数不重要，那拿掉就拿掉吧。

以下的论点是在，该变量不可以拿掉，但该变量有大量缺失值，这样不完整的dataset怎么办…
若要看书，建议Colin amd Trivedi的Microeconomietrics methods and applictions的
Chapter 27 Missing Datat and Imputation是您不错的参考章节。
当然stata的手册[MI]也很值得参考。[SAS也有专门对应的处理方式】

首先，您应该确定您的IQ test的数据大量缺失究竟是怎样的缺失法。
这会扯到缺失机制的问题，在某些缺失机制下【譬如MAR，指missing at random】
则，可忽略。【可忽略的意思是，就在不完整的资料下做吧！专业一点的术语 listwise delection】

究竟多少缺失比率下，可采用listwis delection？
书上指出 Schafer,1996建议 5％或更少。
但我曾听过这方面的研究，由学弟们报告【哪一篇我实在忘了】
大概最高不得超过30%【比率实在不好说，我不确定，因为这方面的探讨应该一两年前听过的】

最后，如果是问我个人，我觉得该变数实在不宜拿掉。
因为Wooldridge的书，最爱举IQ test对wage的影响。
少掉这变数，一定会被质疑可能有衡量误差…问题。
若这个变数不宜拿掉，则这又带来一个问题，缺失值怎么办？
则stata的[MI]就派上用场了！至于缺失值该填什么？我想这是您该自己去想想的问题。
譬如IQ test可能与什么有关？受教育年数？年龄？父母的受教育年数？
等您思索好，则可完成多重插补这些missing value

希望对您有所帮助，写的好累阿！评个分吧！哈哈！

已有 4 人评分	学术水平	热心指数	信用等级	收起理由
daydreamingII	+ 1	+ 1	+ 1	观点有启发
h894510055	+ 1	+ 1	+ 1	观点有启发
290wangseaman	+ 1	+ 1	+ 1	太感谢了
binggol	+ 1	+ 1	+ 1	牛人

总评分: 学术水平 + 4 热心指数 + 4 信用等级 + 4 查看全部评分

藤椅

290wangseaman

发表于 2010-11-29 00:22:00

2# h3327156

实在太感谢楼上的大侠了，太专业了，哈哈。

我刚才一直在研究这个问题。

关于缺失机制，我实在不好判断是何种原因。因为作业的数据就是这么给的……其他的IQ result的分布也没其他异常，所以不知道是mar还是nmar还是mcar...

IQ对于wage的确是伍德里奇喜欢举的一个例子。我也很像检验他们之间的关系。
问题是我刚才用stata统计了一下，1670个obs，650个mv，缺失率是39%，将近40了。

在缺失率这么大的情况下，用均值填，甚至用multiple imputation算出来的填充数据是否能作准？

等待大侠的回复。

板凳

h3327156 发表于 2010-11-29 01:03:54

用均值代，书上是指没有模型基础下的填代【实在想不出决定IQ test的是什么，那用这个不错】
用MI的方法，这是有模型基础的。

我个人认为，是可以作准的，missing value该填什么，有很多种方法的。
这些方法，很难说哪一个比较好。【虽说也有文献去模拟并比较各种方法！】
但任何一种方法，都希望猜出这些missing vlaue值可能是什么，
而且希望比较大比较多的dataset，进而有比较多的information，
避免模型估计的偏误与不精确。

缺失率再大，放弃绝对不是一个好方法。
均值法或MI法都好，这些方法都是希望更好，不是吗？
至少我们可能越接近完美了！

为尊重前人的研究，建议在使用时，
把stata的手册引用上去，或者书上提到的一些文献，调出来引用上去。
最后，Rubin (1976）那篇，大概这方面的研究都不得不引用的经典文献。

我不是大侠…欢迎讨论。

已有 1 人评分	学术水平	热心指数	信用等级	收起理由
290wangseaman	+ 1	+ 1	+ 1	thanks

总评分: 学术水平 + 1 热心指数 + 1 信用等级 + 1 查看全部评分

报纸

290wangseaman

发表于 2010-11-29 04:09:55

4# h3327156

发现处理missing data还真的是一个比较大的课题。。

如果我用均值替代法，在stata中
直接用mean IQ算出来的均值是包括了缺省值的均值还是剔除了缺省值的均值？
比如x1=1,x2=missing,x3=2
mean x=(1+2)/2=1.5?

stata处理缺失数据的默认方式是怎样的呢？
把missing的data当做0处理？

我应该用何种命令去替代缺省数据的均值呢？

地板

h3327156 发表于 2010-11-29 20:17:05

嗯！确实是一个很大的课题。
否则stata手册不会一个[MI”两百多页…看到我都想放弃，不做了！

均值替代法，这边提的是比较不专业的，【所谓不专业，是指就不用stata专属的mi指令去做】
您的问题很好，您指的作法，均值是剔除了缺省值的均值
以下是我建立的一个例子：您参考看看～
1.我假设，sch【受教育年数】而另一变量iq【这就不说了】
2.而misssing的iq均值，由相同sch的个体去构成
【这个作法下的新iq变量，叫newiq】
【这有个盲点，如果相同sch的人，全部都拒答成missing值，则无法计算】
3. newiq2指的是，所有missing的iq值，通通由非misssing的iq均值构成。

input iq sch
iq sch
80 12
90 12
. 11
120 16
80 11
. 9
140 18
70 9
. 9
92 16
end

mean iq

bysort sch: egen missing_iq=mean(iq)
gen newiq=missing_iq if iq==.
replace newiq=iq if iq!=.

egen newiq2=mean(iq)
replace newiq2=iq if iq!=.

sum iq newiq newiq2

最后，也许您想执行multiple imputation，
help mi imp
【要讲实在超多的，不如您好好看手册】
不过在执行mi imp前，
您要先设定一些东西【help mi set】
mi set
………
【简言之，这是在对您missing值资料的设定与插补设定，不废言，看手册】

已有 2 人评分	学术水平	热心指数	信用等级	收起理由
daydreamingII	+ 1	+ 1	+ 1	热心帮助其他会员
290wangseaman	+ 1	+ 1	+ 1	高手高手高高手

总评分: 学术水平 + 2 热心指数 + 2 信用等级 + 2 查看全部评分

7楼

290wangseaman

发表于 2010-12-3 21:37:56

6# h3327156

谢谢楼上的高手。

请问你在listwise delection里面指出的 Schafer,1996具体是哪篇文章呢？

8楼

h3327156 发表于 2010-12-4 20:02:45

好奇怪! 我查了一下书，书本内容说是1996年，但后面文献确是1997年。
不过应该是下面的文献【感觉这应该是一本书的样子】
Schafer, J. L. (1997), Analysis of Incomplete Multivariate Data, London, Chapman and Hall.

另外，stata关于MI的文献里，也有几篇Schafer与其它学者的文章，建议您查看看。

9楼

林木萧 发表于 2012-12-18 23:31:46

如果用均值代入的话，回归模型会有偏差，我们需要再加什么变量去剔除或者减少这种偏差的影响呢？

10楼

abcuiyes 发表于 2015-1-2 23:39:45

h3327156 发表于 2010-11-29 20:17
嗯！确实是一个很大的课题。
否则stata手册不会一个[MI”两百多页…看到我都想放弃，不做了！

谢谢你提供了两种均值替代处理缺失值的方法，对于连续变量确实很管用。但是如果是类别变量有缺失值时，该怎么处理？比如样本量为100，男有50个，女有30个，缺失20个；如果1=男，0=女，那么性别变量的均值应该为5/8，那么现在性别这个变量就有三个值：0、5/8和1。那么把性别当自变量来回归时，参照组怎么选？5/8是算作参照组里还是比较组里？谢谢！

[数据管理求助] 新人请教：关于regress的时候的自变量数据缺失问题 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本帖被以下文库推荐

浏览过的帖子

浏览过的版块

初级热心勋章

中级热心勋章

初级信用勋章

中级信用勋章

高级热心勋章

本版微信群

[数据管理求助] 新人请教：关于regress的时候的自变量数据缺失问题 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本帖被以下文库推荐

浏览过的帖子

浏览过的版块

初级热心勋章

中级热心勋章

初级信用勋章

中级信用勋章

高级热心勋章

本版微信群

扫码加我拉你入群