楼主: V_ere
17802 9

[数据管理求助] 应该先剔除缺失值再winsorize处理还是先winsorize处理再删除缺失值呢? [推广有奖]

  • 0关注
  • 0粉丝

硕士生

14%

还不是VIP/贵宾

-

威望
0
论坛币
801 个
通用积分
3.2022
学术水平
0 点
热心指数
2 点
信用等级
0 点
经验
1099 点
帖子
102
精华
0
在线时间
119 小时
注册时间
2012-3-11
最后登录
2020-12-25

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
在处理数据时,应该先剔除缺失值再winsorize处理还是先winsorize处理再删除缺失值呢?两个的结果不一样吧~
谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Winsorize winsor wins SOR 缺失值

沙发
lain1988 发表于 2015-1-24 19:30:08 |只看作者 |坛友微信交流群
刚好我也看到这个问题。我看的文献上是说如果用data trimming的话"make sure to first drop all missing observations"
对winsorization她没有详细说是否要drop缺失值
文献是 Veenman的“Introductory Guide to Using Stata in Empirical Financial Accounting Research" 28页
已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
球球经济小白 + 1 + 1 + 1 精彩帖子
SpencerMeng + 10 + 1 + 1 热心帮助其他会员

总评分: 论坛币 + 10  学术水平 + 2  热心指数 + 2  信用等级 + 1   查看全部评分

使用道具

缺漏值不影响winsor, winsor help文件:winsor takes the non-missing values of a variable x ordered.
reg时自动删除带缺漏值的那行数据,所以在描述性统计前要删缺漏值,和reg的数据保持一致。
分组时定义分组变量后要删缺漏值,缺漏值计为正无穷,分组时会把带缺漏值的数据分至大组,影响结果。
已有 4 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
宁静的城np + 5 精彩帖子
KUAILEDEJINGYU + 5 + 5 + 5 精彩帖子
Sunny602678 + 1 + 1 精彩帖子
admin_kefu + 20 + 2 + 2 + 2 热心帮助其他会员

总评分: 论坛币 + 25  学术水平 + 8  热心指数 + 8  信用等级 + 7   查看全部评分

使用道具

板凳
weilaimvp 学生认证  发表于 2019-5-22 09:26:47 |只看作者 |坛友微信交流群
lain1988 发表于 2015-1-24 19:30
刚好我也看到这个问题。我看的文献上是说如果用data trimming的话"make sure to first drop all missing ob ...
可以分享一下这篇文献吗?我自己找不到,万分感谢

使用道具

报纸
KUAILEDEJINGYU 学生认证  发表于 2020-4-17 20:00:16 |只看作者 |坛友微信交流群
角落里的反光镜 发表于 2019-4-10 19:32
缺漏值不影响winsor, winsor help文件:winsor takes the non-missing values of a variable x ordered.
re ...
老师您好,打扰一下,请问非平衡面板数据可以先缩尾(用winsor2命令)然后回归,然后再剔除缺失值吗?也就是可以把缩尾放在剔除缺失值前面吗?

使用道具

KUAILEDEJINGYU 发表于 2020-4-17 20:00
老师您好,打扰一下,请问非平衡面板数据可以先缩尾(用winsor2命令)然后回归,然后再剔除缺失值吗?也就 ...
最好还是先处理缺失值,回归前不还得描述性统计么。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
KUAILEDEJINGYU + 5 + 5 + 5 精彩帖子

总评分: 学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

使用道具

7
KUAILEDEJINGYU 学生认证  发表于 2020-4-20 21:31:37 |只看作者 |坛友微信交流群
角落里的反光镜 发表于 2020-4-20 18:13
最好还是先处理缺失值,回归前不还得描述性统计么。
好的,谢谢

使用道具

8
白白12 发表于 2021-1-31 21:33:02 |只看作者 |坛友微信交流群
角落里的反光镜 发表于 2020-4-20 18:13
最好还是先处理缺失值,回归前不还得描述性统计么。
您好,我想请问下,我得数据有缺失值,但需要取自然对数,我是应该先取自然对数,再用多重插补法替换缺失值呢?还是顺序反过来?

使用道具

9
shuangchongkui5 发表于 2022-3-14 15:56:30 |只看作者 |坛友微信交流群
白白12 发表于 2021-1-31 21:33
您好,我想请问下,我得数据有缺失值,但需要取自然对数,我是应该先取自然对数,再用多重插补法替换缺失 ...
请问解决了吗?我也遇到这样的情况

使用道具

10
赵安豆 发表于 2024-4-30 23:05:40 |只看作者 |坛友微信交流群
在处理数据时,是否应该先剔除缺失值再进行winsorize处理,还是先进行winsorize处理再剔除缺失值,这个选择取决于你的数据特性以及你的分析目标。然而,通常推荐的做法是先剔除缺失值,再进行winsorize处理。

原因如下:

1. **数据的准确性与完整性**:缺失值可能会影响数据的分布和统计特性。先剔除缺失值可以确保你在一个更准确和完整的数据集上进行winsorize处理,这样可以避免缺失值带来的不确定性影响到极值的处理。

2. **统计分析的准确性**:winsorize处理是为了减少极端值对分析结果的影响,如果在包含缺失值的数据集上进行winsorize处理,可能会错误地评估哪些值应该被视为极端值并进行处理。

3. **结果的一致性**:如果你先进行winsorize处理,可能会因为后续剔除缺失值而改变数据的分布,这可能会影响到最终分析的结果。相反,如果先剔除缺失值,然后再进行winsorize处理,那么处理的基础数据集是固定的,可以保证结果的一致性。

4. **操作的逻辑性**:通常数据清洗的步骤是先处理缺失值(比如通过剔除或插值),然后再处理异常值(比如通过winsorize)。这样的顺序更加符合数据预处理的逻辑性。

然而,在某些情况下,如果缺失值的数量非常少,且你有理由相信这些缺失值不会显著影响数据的分布,你可能会选择先进行winsorize处理。但这种情况较为少见,并且需要你对数据的特性和分布有很好的理解。

总的来说,先剔除缺失值再进行winsorize处理是更加常见和推荐的做法,因为这样可以确保处理的数据集是完整和准确的,从而提高分析结果的可靠性。

此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用



使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-5 22:37