95936 50

[数据管理求助] Winsorize数据处理和删除异常值的区别是什么?   [推广有奖]

11
catherinewangyi 发表于 2013-4-16 23:02:25
异常值处理,原理大致是将异常值修建成与正常分布最大值or 最小值相同。
eg,如果你的log_size都在20左右,例如在15~20之间区间浮动,有些特别大或特别小的值出现,用winsorize就会把他们变成区间的最大值or最小值。这个“特别大”or“特别小”是你自己可以定义的,如果你认为比20高出10%算作异常值,那么22就会被修改成20,放在样本里。
个人理解,仅供参考~

12
catherinewangyi 发表于 2013-4-16 23:05:34
异常值处理,原理大致是将异常值修建成与正常分布最大值or 最小值相同。
eg,如果你的log_size都在20左右,例如在15~20之间区间浮动,有些特别大或特别小的值出现,用winsorize就会把他们变成区间的最大值or最小值。这个“特别大”or“特别小”是你自己可以定义的,如果你认为比20高出10%算作异常值,那么22就会被修改成20,放在样本里。
样本少的时候,剔除样本会对回归有比较大的影响,我们的模型都是在大样本下才成立的,如果样本量小就会用各种修正模型。当然用winsorize就很好,你的样本量不会减少,回归效果会更好。如果样本量较大,去掉一个两个没什么大的关系啦,你师兄觉得winsor麻烦吧,直接去掉好了。
个人理解,仅供参考~

13
jose.liupei 发表于 2013-4-16 23:27:13
想读博的孩子 发表于 2012-5-7 22:55
那两种方法对回归结果会产生怎样不同的结果呢?还有什么时候缩尾什么时候结尾?谢谢 灰常感谢
winsor不会减少observations,结尾会减少observation;一般的情况下,结果不会产生很大的不同,毕竟都是控制的异常值,且winsor或结尾的observations不大,一般是空盒子full sample的两边分布的各1%
未出土時先有節,及凌雲處尚虛心

14
jose.liupei 发表于 2013-4-16 23:31:13
碧海潇湘 发表于 2012-11-23 20:51
请问winsorize
在Stata中是怎么做的?谢谢
如果你有一个变量叫mpg,就建立一个新的变量Wmpg,p(0.01)表示winsor数据分布两边各1%
winsor mpg, gen(Wmpg) p(0.01)
未出土時先有節,及凌雲處尚虛心

15
jose.liupei 发表于 2013-4-16 23:32:14
cheerhappy 发表于 2012-12-4 11:02
我也想知道应该在stata中怎么做,我也有这个问题需要咨询,谁能来再解释一下啊!
见楼上
未出土時先有節,及凌雲處尚虛心

16
碧海潇湘 学生认证  发表于 2013-4-27 10:14:50
jose.liupei 发表于 2013-4-16 23:31
如果你有一个变量叫mpg,就建立一个新的变量Wmpg,p(0.01)表示winsor数据分布两边各1%
winsor mpg, gen( ...
谢谢,已经解决了

17
myj1005 发表于 2013-10-23 20:54:12
catherinewangyi 发表于 2013-4-16 23:05
异常值处理,原理大致是将异常值修建成与正常分布最大值or 最小值相同。
eg,如果你的log_size都在20左右, ...
请问用stata或eviews怎么操作啊?

18
fgleric 发表于 2013-10-24 08:55:41
异常值属于作者自行定义,根据以往文献或者实际情况

winsor则是把top、bottom的数去除掉,防止极端值影响结果。

19
伍少红 在职认证  发表于 2013-11-11 18:28:18
xuexi

20
伍少红 在职认证  发表于 2013-11-11 18:31:56

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-29 06:16