楼主: anyme
7102 9

怎样找出outlier ?? [推广有奖]

  • 0关注
  • 0粉丝

本科生

18%

还不是VIP/贵宾

-

威望
0
论坛币
982 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
495 点
帖子
64
精华
0
在线时间
54 小时
注册时间
2005-4-6
最后登录
2022-5-27

楼主
anyme 发表于 2011-11-30 13:13:54 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
project 是用sas regression分析著名的 boston housing data, 找到最好的model

请问各位大牛我能感觉有很多outlier但是怎么找到呢????

附件里是数据,谢谢

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:outlier outl Lie Out TLI housing 最好

沙发
tj0412ymy 发表于 2011-11-30 13:18:55
假如一些变量大致服从正态分布,可将3*sigma之外的数据剔除
对SAS和统计方面感兴趣的朋友,请加SAS学习和认证讨论群:169157207。欢迎在群上讨论!

藤椅
joelluo 发表于 2011-11-30 13:19:40
实在是看不清 无法选择了,没办法做啊
罗永立

板凳
tj0412ymy 发表于 2011-11-30 13:23:54
对SAS和统计方面感兴趣的朋友,请加SAS学习和认证讨论群:169157207。欢迎在群上讨论!

报纸
anyme 发表于 2011-11-30 13:28:20
tj0412ymy 发表于 2011-11-30 13:23
或者干脆一刀切,将低于5%的分位数和高于95%的分位数的值全部删除掉
那这样不会不精确吗? 而且我都不知道怎样切?
目前我就做过切一个outlier的题...现在这么多看都看不清楚..
好像老师说切过多也不对,所以我真的不知道怎么办了..

地板
anyme 发表于 2011-11-30 13:29:30
joelluo 发表于 2011-11-30 13:19
实在是看不清 无法选择了,没办法做啊
我也是看不清,但是想想如果剔出outlier 可能就行了..

7
tj0412ymy 发表于 2011-11-30 13:42:22
anyme 发表于 2011-11-30 13:28
那这样不会不精确吗? 而且我都不知道怎样切?
目前我就做过切一个outlier的题...现在这么多看都看不清楚. ...
比如X6代表的是人均拥有的room,从直观感觉应该是最接近正态分布的,故可以对其只保留3*sigma以内的值。

univar19.png (9.36 KB)

univar19.png

对SAS和统计方面感兴趣的朋友,请加SAS学习和认证讨论群:169157207。欢迎在群上讨论!

8
tj0412ymy 发表于 2011-11-30 14:16:31
anyme 发表于 2011-11-30 13:28
那这样不会不精确吗? 而且我都不知道怎样切?
目前我就做过切一个outlier的题...现在这么多看都看不清楚. ...
要想准确地排除outlier,首先需要对每个变量有较为准确的把握,大致了解该变量的现实意义以及分布情况。比如X1变量代表的是人均犯罪率,这在统计中算是稀有事件,大致应该会服从poisson分布,而观察其直方图,正好验证了我们的猜想。

x1.png (9.67 KB)

x1.png

对SAS和统计方面感兴趣的朋友,请加SAS学习和认证讨论群:169157207。欢迎在群上讨论!

9
baoaibaobao 发表于 2011-11-30 17:26:20
个人认为,需要参照变量专业知识考虑!

10
anyme 发表于 2011-11-30 23:44:24
tj0412ymy 发表于 2011-11-30 14:16
要想准确地排除outlier,首先需要对每个变量有较为准确的把握,大致了解该变量的现实意义以及分布情况。 ...
Thank you so much

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-1 08:33