楼主: wzb812
5274 3

[数据管理求助] CHNS收入数据的异常值怎么剔除啊? [推广有奖]

  • 1关注
  • 0粉丝

教授

26%

还不是VIP/贵宾

-

威望
0
论坛币
7440 个
通用积分
14.3500
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1652 点
帖子
401
精华
0
在线时间
1085 小时
注册时间
2006-11-28
最后登录
2024-3-26

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
最近在用chns数据做分析,涉及到家庭收入数据,但是有些家庭收入多,支出也多,最后甚至净收入为零或负数,这样的家庭肯定不能算作是贫困的,那么如何筛选出异常值并剔除呢?

谢谢啦
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:CHNS 异常值 收入数 CHN CHNS数据 收入 异常

沙发
luopulvye 发表于 2013-6-1 15:10:43 |只看作者 |坛友微信交流群
分城市和农村了吗?这样的情况城市应该不多吧?

使用道具

藤椅
wzb812 发表于 2013-6-1 16:10:12 |只看作者 |坛友微信交流群
luopulvye 发表于 2013-6-1 15:10
分城市和农村了吗?这样的情况城市应该不多吧?
城市有些是经商 支出多 但是 以什么标准来剔除异常值呢 谢谢啦

使用道具

板凳
qjhong 发表于 2013-6-1 20:06:41 |只看作者 |坛友微信交流群
一、查找离群值。
1、adjacent


    adjacent lists adjacent values for a set of numeric variables in varlist. Calculate the upper and lower quartiles,  p75 and p25, and thus the interquartile range iqr = p75 - p25. Then the adjacent values are the highest value not greater than p75 + 3/2 iqr and the lowest value not less than p25 - 3/2 iqr.

例如

      sysuse auto, clear
      adjacent price, by(foreign)


2、egenmore

egen out2 = outside(price), factor(2)  //上限为P75+2倍的四分之一间距

二、离群值的处理

1、删除
  sysuse auto, clear
  adjacent price, by(foreign)
  drop if (price>8814&foreign==0) | (price>9735&foreign==1)

2、对数转换

一般对数转换可以明显得去掉一部分离群值

3、使用winsor命令

winsor price, gen(P_2) p(0.025) //这个为双边缩尾,p(0.025)为5%的观测值会发生变化
已有 1 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
Sunknownay + 100 + 10 + 1 + 1 + 1 热心帮助其他会员

总评分: 经验 + 100  论坛币 + 10  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-24 10:36