楼主: peyzf
1647 4

[Stata高级班] 请教连老师:数据处理 [推广有奖]

  • 1关注
  • 63粉丝

警督

大师

59%

还不是VIP/贵宾

-

威望
2
论坛币
566735 个
通用积分
200.4746
学术水平
218 点
热心指数
240 点
信用等级
140 点
经验
132065 点
帖子
12769
精华
0
在线时间
2976 小时
注册时间
2007-9-8
最后登录
2025-10-10

楼主
peyzf 发表于 2011-12-15 20:36:35 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

数据处理问题

老师,我最近在处理一个数据集。这是一个面板数据,近600个观察个体(id),近20年的记录。从整体上看,数据比较脏。数据表面中没有缺失值,但有大量的零值。可以肯定地说,其中有些零值应该为缺失值。

当很难区分哪些零值是真正的零,哪些零值实际上为缺失值时,一般如何处理?

a.       将零值统一改为缺失值?显然会存在系统性偏差。

b.       不进行处理?有变量的取值很大,的零值肯定会对估算结果带来大的干扰。

c.       有些情况可以明显地判断出其为缺失值(而非零值),可以将这些零值变化缺失值,是否需要对这些缺失值进行补全? 通常的补全策略是什么?

我采取的策略是(时间跨度为1995-2010年):

第一类:存在一个缺失值

1A.B的情形,统一用AB的平均值来补全中间的缺失值;

21995年的系统缺失:由于该年没有进行统计,我们统一用1996年的值代替。

3)对于2010年值的补全:统一用2009年的非缺省值代替。

第二类:存在两个缺失值

1A..BC情形,我们用AB的平均值来补全第一个缺省值,如即(A+B/2=x,第二个缺省值会按照同样的规则进行补全,即(x+C/2。在此基础上,利用第一类中的(1)方法对A.B的情形进行更新处理。

2..A的情形,其中第一缺省值出现在1995年。我们用A代替1995年的缺省值。在此基础上,利用第一类中的(1)方法对A.B的情形进行更新处理。

3A..情形:其中第二个缺省值出现在2010年。我们用A代替2010年的缺省值。在此基础上,利用第一类中的(1)方法对A.B的情形进行更新处理。

   

        余下来的情形是A…….B的情形(缺失值连续出现高于3次),如何对其修正?

另外,有些变量在时序上出现很大的波动,如一下从几万下降到几十,然后又增加到几万,能不能将中间的那一年看作是异常值?对于一个id在时序上的记录,如何排除异常值?或需要做怎样的处理?

因此,所问的问题可以归结为:缺失值的辨认(真的零值还是假的零值)、处理,以及异常值的处理。

能否提供相关建议。

谢谢。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据处理 连老师 数据处理问题 数据比较 面板数据 记录 如何

沙发
arlionn 在职认证  发表于 2011-12-21 08:59:22
整体而言,我认为直接删除缺失值或许是一个比较干净的做法,虽然可能导致样本选择偏误,但相对于臆想补全缺失值而言,这种处理方法似乎更稳妥一点。

当然,从你说明的情况来看,似乎是一个时序资料,删除缺漏值可能导致无法执行后续分析。此时,你对第一类和第二类缺失值的处理方法我都没有任何异议。但对于第三种情形,就很难进行分析了。你可以考虑使用 Stata 11 新推出的多重补漏分析, help mi (Stata 初级视频 A2_data 部分有详细介绍)。

另外,在公司财务领域,有不少学者为了尽可能多地使用样本,会将缺漏值统一定义为 0,然后另设一个虚拟变量来标注哪些观察值是缺失的,以便在一定程度上进行校正。
参见:Flannery, M. J., K. P. Rangan, 2006, Partial adjustment toward target capital structures, Journal of Financial Economics, 79 (3): 469-506.

p.477R&D_DUM: A dummy variable equal to one for firms with missing R&D expenses.
About 55% of our sample firm-years do not report R&D expenses. For these firms, we
set R&D expense to zero and set R&D_DUM equal to one.

藤椅
peyzf 发表于 2011-12-21 21:04:01
谢谢连老师的回答。
我这是一个面板数据。不知道是否适合于论文中的情形。

板凳
arlionn 在职认证  发表于 2011-12-27 10:42:32
我提供的那篇论文也是 Panel Data。

报纸
peyzf 发表于 2011-12-28 00:08:58
谢谢。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-5 16:11