楼主: andybee
20824 19

[数据管理求助] 如何找到数据最10%和90%分位点,然后删掉大于90%和小于是10%的样本点 [推广有奖]

  • 5关注
  • 1粉丝

已卖:15份资源

讲师

91%

还不是VIP/贵宾

-

威望
0
论坛币
6112 个
通用积分
7.9658
学术水平
5 点
热心指数
9 点
信用等级
2 点
经验
594 点
帖子
475
精华
0
在线时间
786 小时
注册时间
2010-9-6
最后登录
2024-11-5

楼主
andybee 发表于 2013-9-16 17:07:15 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
如题,为了消除异常点的影响,如何找到数据最10%和90%分位点,然后删掉大于90%和小于是10%的样本点,谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:异常点 如何 样本

小隐隐于林,大隐隐于市。

沙发
xingxf 发表于 2013-9-16 20:16:08
对于outlier的影响,两种方法解决,一种是去掉数据两端极值,一种是对数据进行winsorization。现在后面的方法比较常用一些。

另外,我觉得你的10%和90%的设置有点过大,等于你去除了20%的数据。

你非要这么做的话,可以使用cut函数,生成10等分位,去掉两端就可以。另外推荐使用winsor,进行winsorization。

藤椅
andybee 发表于 2013-9-16 20:41:48
xingxf 发表于 2013-9-16 20:16
对于outlier的影响,两种方法解决,一种是去掉数据两端极值,一种是对数据进行winsorization。现在后面的方 ...
高手你好,我是想做个稳健性测试,所以这样做,因为我有看到别人这么做了。winsor这个命令不行,因为它不是删除,也就是跑过之后,数据不会变少。其他,能给个具体的用法吗,多谢了!
小隐隐于林,大隐隐于市。

板凳
xingxf 发表于 2013-9-17 02:40:01
andybee 发表于 2013-9-16 20:41
高手你好,我是想做个稳健性测试,所以这样做,因为我有看到别人这么做了。winsor这个命令不行,因为它不 ...
我还真没见过什么paper去极值去掉20%的数据,winsor的好处就是不删除观察值。别说删除20%的数据,我觉得winsor 20%的数据都很不妥。

你非要去的话,我不是说了用cut函数。
举例来说你的variable名称为var
egen var_group=cut(var), group(10)
drop if var_group==0|var_group==9

或者使用下面的函数:
_pctile var,p(10,90)
return list
drop if var<r(r1)|var>r(r2)


已有 3 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
flynnfeng + 1 精彩帖子
李志云 + 3 + 3 + 3 精彩帖子
SpencerMeng + 20 + 1 + 1 + 1 精彩帖子

总评分: 论坛币 + 20  学术水平 + 5  热心指数 + 4  信用等级 + 4   查看全部评分

报纸
nkunku 发表于 2013-9-17 07:03:59
学习了,谢谢

地板
andybee 发表于 2013-9-17 08:58:15
xingxf 发表于 2013-9-17 02:40
我还真没见过什么paper去极值去掉20%的数据,winsor的好处就是不删除观察值。别说删除20%的数据,我觉得w ...
你好,高手,我现在把我看到的论文的描述转给你看,可能是我理解错了,请继续指教。
为检验异方差的影响,我们首先计算出各个企业劳动收入份额在10%和90%百分数,并将全部样本中低于10%分位数和高于90%分位数的样本点剔除,在此基础上,对剩余样本数据进行处理。——《政治关系、制度环境与劳动收入份额》。
我不清楚,这段话用了两个概念,一个是百分数,后面又讲分位数,让我很迷惑,同时,他这里又好像不是讲的删除劳动收入份额小于10%和大于90%样本,如果是这样的,干嘛废这么多话,直接这么说就行了,所以你看是我这样理解的,应该是找分位数点,也就是10%分位数点和90%分位数点,这样删除掉数据就不会有整个数据的20%,而可能只有百分之十以下,而你的这种方法会删除掉整个样本的20%,确实太多了,感谢。
小隐隐于林,大隐隐于市。

7
andybee 发表于 2013-9-17 08:59:46
andybee 发表于 2013-9-17 08:58
你好,高手,我现在把我看到的论文的描述转给你看,可能是我理解错了,请继续指教。
为检验异方差的影响 ...
关键是怎么用stata打到10%和90%的分位数点,也就是这两个值,我不会。
小隐隐于林,大隐隐于市。

8
andybee 发表于 2013-9-17 09:11:59
xingxf 发表于 2013-9-17 02:40
我还真没见过什么paper去极值去掉20%的数据,winsor的好处就是不删除观察值。别说删除20%的数据,我觉得w ...
_pctile var,p(10,90)
return list
drop if var<r(r1)|var>r(r2)
这个应该就是我想要的,多谢了,以后还要多请教了!
小隐隐于林,大隐隐于市。

9
powelton 发表于 2013-9-17 20:34:45
很好的实用程序,顶顶

10
baixueflower 发表于 2014-11-23 20:18:35
受教了,多谢

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-31 14:23