楼主: 汤圆。
635 5

[区域经济学] 异常值处理,求大佬们帮助 [推广有奖]

  • 0关注
  • 0粉丝

初中生

66%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
2.5678
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
145 点
帖子
8
精华
0
在线时间
21 小时
注册时间
2025-2-16
最后登录
2025-4-6

楼主
汤圆。 发表于 2025-2-16 20:01:52 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我的毕业论文涉及到了数字经济,选取了河北省2011年-2022年11个地级市的数据,其中这一项指标在进行数据清洗时,检查数据中是否存在异常值。下面图片只是我刚收集时的格式,大家可以看出来石家庄的最后几年明显要比其他地级市的差距大,因此检查是否有异常值时,不论是用四分位数范围(IQR)法(按照1.5)、箱线图还是Z-score(按照>3) 。都被识别为异常值。可是我对比了河北统计年鉴我的数据没有找错,那这种情况应该怎么办。有没有好心的大佬帮帮忙解答。 1049e014128307d7243b41091f7c12f.png
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:异常值 z-score 河北统计年鉴 score core

沙发
赵安豆 发表于 2025-2-16 20:17:07
遇到您描述的这种情形,在处理和解释数据时确实需要谨慎。当一个观测值被算法或方法识别为异常值(outlier),但这个观察结果在现实中是有合理基础的,这往往意味着我们面对的是统计学意义上的异常与现实世界的逻辑之间的差异。

1. **验证数据来源**:首先确认您的数据收集和处理过程没有错误,您已经提到对比了河北统计年鉴,并确认数据正确无误。这是一个好的开始。

2. **理解背景信息**:石家庄在数字经济方面表现突出可能有多种原因,比如政策倾斜、基础设施建设、企业集中度等。了解这些背后的原因可以为您的分析提供更深刻的见解。

3. **异常值处理策略**:
   - **不删除数据点**:由于这个“异常”反映了真实世界的现象,直接删除可能会扭曲结果。
   - **敏感性分析**:进行模型构建时,同时考虑包含和排除石家庄的数据。比较两种情况下的结果,评估其影响。
   - **使用鲁棒统计方法**:寻找那些对异常值不那么敏感的统计模型或方法。例如,在回归分析中可以使用稳健回归(robust regression)。
   - **分组分析**:考虑到石家庄与其它城市在数字经济方面可能存在显著差异,您可以在分析时将其单独处理或者与其他表现相似的城市进行组合比较。

4. **解释和讨论**:无论采取哪种策略,都应在论文的讨论部分清楚地指出这个观察结果,并对其可能的原因、影响以及您的处理方式进行详细说明。这样不仅能增加研究的透明度,也展示了您对数据分析深度的理解。

希望这些建议能帮助您更好地处理数据中的“异常”情况!

此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用



藤椅
Killua609 发表于 2025-2-17 10:19:30
多动脑想想为啥异常

板凳
汤圆。 发表于 2025-2-17 17:18:29
Killua609 发表于 2025-2-17 10:19
多动脑想想为啥异常
如果我会的话就不会在这上面发了,你没必要这么说别人吧

报纸
のgmの 发表于 2025-12-26 10:58:00
包含石家庄数据的完整模型结果,剔除石家庄后的稳健性检验结果,说明两种情况下结论的一致性?

地板
shadowaver 在职认证  发表于 2025-12-26 15:40:08
异常是相对的,往往异常值蕴含着丰富的信息,需要结合经济社会业务逻辑解读 ,如果下一步你准备研究趋势 可以采用段点回归或岭回归来处理异方差问题,如果你准备用时间序列或者叠加面板分析 可以做单位根检验 然后用差分方式形成平稳序列,甚至不用那么多复杂的统计方法 直接用列联表方差与卡法检验来做定性分析 都是可以选择的切入分析视角。总之异常是相对的、不要轻易剔除

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-27 18:56