楼主: 理查德小虎
14966 12

请问用stata如何剔除3个标准差以外的异常值? [推广有奖]

  • 0关注
  • 1粉丝

小学生

92%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
1 点
热心指数
0 点
信用等级
0 点
经验
68 点
帖子
9
精华
0
在线时间
5 小时
注册时间
2012-2-18
最后登录
2012-4-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
非常谢谢。顺便问一下下面两种操作,分别可以达到怎样的剔除异常值的效果?
PS: 顺便附上俩分别按照“百分比-比如前后各5个%”和“切成小块-比如切成20块,删除前后各2块”的两个剔除利群值的操作。
-------------------------------------------
*设解释变量是x,被解释变量是y

cumul y, g(s) eq
cumul x, g(t) eq
replace y=. if s<.05|s>.95
replace x=. if t<.05|t>.95
drop s t
-------------------------------------------
*还可以用

xtile s=y,nq(20)
xtile t=x,nq(20)
replace y=. if s<2|s>19
replace x=. if t<2|s>19
drop s t
-------------------------------------------

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Stata tata 异常值 标准差 replace replace 标准差 百分比 如何

沙发
aolei 发表于 2012-3-7 14:58:11 |只看作者 |坛友微信交流群
贴部分数据出来嘛~

使用道具

aolei 发表于 2012-3-7 14:58
贴部分数据出来嘛~
INV        local
0.122803787        2
0.041955347        2
0.134040709        2
0.007618153        2
0.017289108        1
0.049179033        1
0.017389606        2
0.051376119        1
0.007567811        2
0.000972777        1
0.142911216        1
0.051098153        2
0.052594731        2
0.063840659        1
0.030737248        1
0.047314124        1
0.106866105        2
0.075816657        1
0.136969435        1

使用道具

板凳
aolei 发表于 2012-3-7 15:24:23 |只看作者 |坛友微信交流群
*可以稍微跑一下,看一下结果
clear
set obs 100
gen x=_n
gen y=_n

cumul x, g(t) eq
replace x=. if t<.05|t>.95

xtile s=y,nq(20)
replace y=. if s<2|s>19

list

使用道具

报纸
sungmoo 发表于 2012-3-7 15:34:21 |只看作者 |坛友微信交流群
剔除3sigma以外值,前提是正态分布吧?

使用道具

aolei 发表于 2012-3-7 15:24
*可以稍微跑一下,看一下结果
clear
set obs 100
哦,谢谢。所以,在正态分布的前提下,只要删除前后1%的数值,就等于说,我们已经做到剔除3个标准差外的异常值了,是么? --我数学很白痴,请大家不要上火。

使用道具

7
sungmoo 发表于 2012-3-7 15:46:59 |只看作者 |坛友微信交流群
在正态分布的前提下,只要删除前后1%的数值,就等于说,我们已经做到剔除3个标准差外的异常值了,是么?
均值±3倍标准差,对应的概率是99.74%。

使用道具

8
aolei 发表于 2012-3-7 15:50:13 |只看作者 |坛友微信交流群
sungmoo 发表于 2012-3-7 15:34
剔除3sigma以外值,前提是正态分布吧?
正负3个标准差内包含了99.73%的x值,但是实证中都是直接剔除最高和最低的5%或者1%,不知道要不要管这么多,同求高手指点

使用道具

9
理查德小虎 发表于 2012-3-7 15:52:57 |只看作者 |坛友微信交流群
谢谢aolei,也谢谢sungmoo。那我就听你们的,直接删除前后5%的极端值好了。

使用道具

10
sungmoo 发表于 2012-3-7 15:53:53 |只看作者 |坛友微信交流群
aolei 发表于 2012-3-7 15:50
正负3个标准差内包含了99.73%的x值,但是实证中都是直接剔除最高和最低的5%或者1%,不知道要不要管这么多 ...
这个完全看研究者自己的想法了吧?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 05:18