91761 50

[数据管理求助] Winsorize数据处理和删除异常值的区别是什么?   [推广有奖]

  • 0关注
  • 0粉丝

VIP1

初中生

4%

还不是VIP/贵宾

-

威望
0
论坛币
1700 个
通用积分
0
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
96 点
帖子
3
精华
0
在线时间
19 小时
注册时间
2012-5-7
最后登录
2017-11-16

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
阅读文献的时候发现会计学的学术文章对于异常值的处理一般采用的是Winsorize和删除两种手段,虽然会用方法但不知道原理是什么?也在网上搜集了一些资料,咨询了博士师兄。资料上说:Note that Winsorization is not equivalent to simply throwing some of the data away. This is because the order statistics are not independent. 博士师兄说:数据少的时候用winsorize,数据多的时候可以删除异常值。是这样吗?希望各位高人能提供权威性的解释 谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Winsorize winsor 数据处理 wins Win 数据 异常 数据分析专题 数据处理 数据分析软件 数据分析报告 面板数据分析 excel数据分析 数据分析方法 项目数据分析

已有 2 人评分经验 学术水平 热心指数 信用等级 收起 理由
葫芦娃大王 + 10 鼓励积极发帖讨论
日新少年 + 1 + 1 + 1 精彩帖子

总评分: 经验 + 10  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

本帖被以下文库推荐

沙发
denver 发表于 2012-5-7 22:40:54 |只看作者 |坛友微信交流群
winsorize是用相应分位数的值替代分位数之外的值,而不是删掉,这样可以最大限度的保存数据信息另外,这个跟数据多少没关系。主要是根据已有文献来的,如果别人用winsorize你也要用,否则你的结论和别人的没有可比性。不过就我看来,至少在金融领域,使用winsorize比较普遍,删除异常值的做法越来越少的被使用了
已有 5 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
yybys + 3 + 3 + 3 + 3 热心帮助其他会员
日新少年 + 1 + 1 + 1 精彩帖子
zzg2glp + 1 + 1 观点有启发
crystal8832 + 24 + 2 + 2 热心帮助其他会员
SpencerMeng + 10 + 1 + 1 热心帮助其他会员

总评分: 论坛币 + 37  学术水平 + 8  热心指数 + 8  信用等级 + 4   查看全部评分

Denver大家一起读Paper系列索引贴:
https://bbs.pinggu.org/thread-1430892-1-1.html

使用道具

藤椅
2009000410 发表于 2012-5-7 22:50:03 |只看作者 |坛友微信交流群
简单的说,一个是缩尾,一个是截尾。
已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
囝河谷 + 1 精彩帖子
forestbrook + 5 + 2 + 2 + 2 观点有启发

总评分: 论坛币 + 5  学术水平 + 2  热心指数 + 3  信用等级 + 2   查看全部评分

使用道具

2009000410 发表于 2012-5-7 22:50
简单的说,一个是缩尾,一个是截尾。
那两种方法对回归结果会产生怎样不同的结果呢?还有什么时候缩尾什么时候结尾?谢谢 灰常感谢

使用道具

报纸
无尘第二 发表于 2012-6-11 12:43:38 |只看作者 |坛友微信交流群
winsorized数据 winsorized前的原始数据 谢谢解答!也正有同问。winsorize前后的数据截图见附件。跑程序时发现有意思的现象,winsorize之前的数据回归分析不显著,而winsorize处理后结果就显著了。

使用道具

地板
碧海潇湘 学生认证  发表于 2012-11-23 20:51:06 |只看作者 |坛友微信交流群
无尘第二 发表于 2012-6-11 12:43
谢谢解答!也正有同问。winsorize前后的数据截图见附件。跑程序时发现有意思的现象,winsorize之前的数据回 ...
请问winsorize
在Stata中是怎么做的?谢谢

使用道具

7
cheerhappy 发表于 2012-12-4 11:02:48 |只看作者 |坛友微信交流群
我也想知道应该在stata中怎么做,我也有这个问题需要咨询,谁能来再解释一下啊!
不放弃、不抛弃

使用道具

8
c3755 发表于 2013-1-3 23:30:19 |只看作者 |坛友微信交流群
想知道

使用道具

9
arlionn 在职认证  发表于 2013-1-7 10:06:20 |只看作者 |坛友微信交流群
碧海潇湘 发表于 2012-11-23 20:51
请问winsorize
在Stata中是怎么做的?谢谢
findit winsor
已有 1 人评分经验 收起 理由
葫芦娃大王 + 10 精彩帖子

总评分: 经验 + 10   查看全部评分

使用道具

10
catherinewangyi 发表于 2013-4-16 23:02:13 |只看作者 |坛友微信交流群
异常值处理,原理大致是将异常值修建成与正常分布最大值or 最小值相同。
eg,如果你的log_size都在20左右,例如在15~20之间区间浮动,有些特别大或特别小的值出现,用winsorize就会把他们变成区间的最大值or最小值。这个“特别大”or“特别小”是你自己可以定义的,如果你认为比20高出10%算作异常值,那么22就会被修改成20,放在样本里。
个人理解,仅供参考~

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-9 13:54