楼主: zm6040
7242 10

[回归分析求助] 离群值处理为何很多文献用winsor的百分比标准而不是标准差标准 [推广有奖]

  • 8关注
  • 10粉丝

已卖:163份资源

讲师

58%

还不是VIP/贵宾

-

威望
0
论坛币
75 个
通用积分
74.7354
学术水平
2 点
热心指数
6 点
信用等级
0 点
经验
6401 点
帖子
127
精华
0
在线时间
956 小时
注册时间
2010-10-6
最后登录
2024-7-1

楼主
zm6040 发表于 2013-11-1 09:45:40 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
如题,我是公司财务领域的,发现很多文献都在用winsor处理,而且常用的都是1%和99%分位数的一刀切,但是在实践中,发现很多数据这种一刀切之后还是会存在离群值问题,为何不适用3个标准差或者6个标准差之类的方法?
另外,看连玉军老师的视屏中,他在离群值处理时,也是凭经验确定winsor百分比的标准(至少视屏里没细说到底为何取),是否有更精确的方式?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:winsor wins 百分比 Win SOR 百分比 标准差

沙发
zm6040 发表于 2013-11-1 09:47:50
另外,懒人求助,求stata标准差剔除离群值的方法,谢谢!

藤椅
zm6040 发表于 2013-11-1 14:44:39
没人看?

板凳
jose.liupei 发表于 2013-11-1 20:09:35
个人觉得:
1. 用标准差的话不好统一标准,每组数据的标准差不一样,如何选择到底用3个标准差还是6个标准差来处理呢?但如果是1%和99%的方法处理的话,每组数据都可以做一个分布,统一选取1%和99%的截点,数据量大,winsor得就多;数据量少,winsor就少;
2. winsor百分比的标准的选取的话确实根据经验和实际情况而定,就像显著性为什么以10%,5%,1%为标准,而不选择7%,3%这样的为标准一样,都是前人的经验和习惯;还要考虑实际情况,如果数据量大或者离群值较多,可以多winsor一些,如果数据量小或者离群值较少,可以少winsor一些;

个人见解,仅供参考
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
恋左瞳 + 1 + 1 + 1 观点有启发

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

未出土時先有節,及凌雲處尚虛心

报纸
夏目贵志 发表于 2013-11-2 01:28:22
jose.liupei 发表于 2013-11-1 20:09
个人觉得:
1. 用标准差的话不好统一标准,每组数据的标准差不一样,如何选择到底用3个标准差还是6个标准差 ...
agree

地板
zm6040 发表于 2013-11-3 11:02:27
zm6040 发表于 2013-11-1 14:44
没人看?
恩,说得不错

7
zm6040 发表于 2013-11-3 11:08:04
编辑了一下,见后面

8
zm6040 发表于 2013-11-3 11:09:07
请往下看

9
zm6040 发表于 2013-11-3 12:02:08
jose.liupei 发表于 2013-11-1 20:09
个人觉得:
1. 用标准差的话不好统一标准,每组数据的标准差不一样,如何选择到底用3个标准差还是6个标准差 ...
恩,说得不错。我再补充一下,做的很多是金融市场的数据,但是我看到的很多文章,例如会计研究上,很多文章都是1%和99%上一刀切(至少都是上千的大数据),但是有些数据,如ROE指标,明显是单向严重拖尾,1%根本解决不了问题,照样一刀切。而如果是用标准差处理,对于这种非对称的拖尾数据处理则要轻松和标准化的多。

10
zm6040 发表于 2014-4-26 11:29:13
自己来终结自己的问题,最近偶然找到了相关文献解释Chen S., Sun Z., Tang S., Wu D., 2011, "Government Intervention and Investment Efficiency: Evidence From China", Journal of Corporate Finance(17), pp.259~271.的附注11
“As suggested by Belsley et al. (1980), observations with Cook's D larger than 4/(n − k − 1) (where n and k is the sample size and number of regressors,
respectively) or the absolute value of studentized residuals larger than 2 can cause undue influences on the regression results. In fitting Model (1) on the full sample or various sub-samples, about 4–5% of the observations are identified as such influential observations. We therefore winsorize the continuous variables atthe 2.5 top and bottom percentiles of their respective distributions. Alternatively, we drop influential observations identified by the above criteria, and theconclusions remain the same.”
Belsley, D., Kuh, E., Welsch, R., 1980. Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. John Wiley & Sons, New Jersey.


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-8 11:01