楼主: ziyenano
8060 6

[实际应用] 论剔除噪声(异常)数据的问题 [推广有奖]

  • 0关注
  • 52粉丝

院士

7%

还不是VIP/贵宾

-

威望
2
论坛币
6137 个
通用积分
27.3501
学术水平
338 点
热心指数
326 点
信用等级
298 点
经验
57355 点
帖子
880
精华
1
在线时间
4131 小时
注册时间
2012-1-4
最后登录
2024-4-18

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
论剔除噪声(异常)数据的问题

似乎是一个老生常谈的话题,有很多文章研究过这个,
但始终没有一个完美的或者robust的答案,尤其当数据多维度的时候。

去噪,每次分析数据之前,总是要考虑的一个问题,异常数据常常
会使得分析的结果偏离真实的结果。

当数据维度较低的时候,可以通过散点图,box图(分位数)等等
来逐个对指标分析,剔除含有异常数据的观测,工作量不算大,
剔除的观测也不算多。

在我的工作中,多数情况是面对的几十个上百个的指标,逐个
去检验每个指标,写个宏,做个批处理或许可行;然而每个指标都会
对应一批异常用户,不同指标对应的用户又不会完全重复。
这么一来,含有异常数据的观测数,是十分可观的。如果都剔除,
信息损失未免过大了。

如此看来,倒是很羡慕那些"抗噪"能力强的算法了;
比如决策树,不管C5.0还是CHIAD,从其算法来看,异常的数据确实对
其没什么影响。
亦或者K-median,传统的K-MEANS,过大过小的异常数据,总是会使得类的
中心(均值)偏大或偏小,而以中位数来作为类的中心,这种影响就非常小了。

不过可惜的是,多数的算法的"抗造"能力是很差的,比如logistic回归,KNN,
BP神经网络,判别分析,广义线性模型等等。
很多耳熟能详的算法,抗噪效果都不是很好,但是在没有噪声数据的情况下,
这些算法的作用又是不言而喻的。

所以如何去噪,成了一件基本却十分重要的任务了。

一般去噪,大的方向来说有两类,一是"删除"异常值,即上面所讲的,
二是"转化"异常值。
比如将数据转化为秩,又如分位数分箱,前1%的数据记为1,
前2%的数据记为2,以此类推。
这样一来,确实摆脱了异常值,但将连续型的数据转为秩,
或者转为1-100,1-1000等等,信息的损失是无法避免的。

第一种方法,由于观测的删除造成信息损失,第二种则由于数据形态的
转变造成信息损失。

很多时候,在不能保证原汁原味的数据情况下,少许的信息损失也是可以接受的,
不同的去噪方法,造成的信息损失自然各不相同。

在此希望各位坛友,积极讨论,集思广益,多多补充去噪的方法。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:logistic回归 logistic k-means logisti ogistic 噪声 异常 中位数 工作量 散点图

已有 1 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
webgu + 80 + 80 + 5 + 5 + 5 大处着笔,观点有启发!

总评分: 经验 + 80  论坛币 + 80  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

本帖被以下文库推荐

  • · sas|主题: 59, 订阅: 14
沙发
gaotao0727 发表于 2013-4-3 11:39:17 |只看作者 |坛友微信交流群
顶一下~~~
衣带渐宽终不悔,为伊消得人憔悴~~

使用道具

藤椅
shenliang_111 发表于 2013-12-11 15:34:43 |只看作者 |坛友微信交流群
观点有启发!data cleaning 的确比较头疼,没有统一的方法!!

使用道具

板凳
zw612003 发表于 2013-12-11 18:09:52 |只看作者 |坛友微信交流群
去噪声在哪个领域都是很重要啊,可以按照数据的相关性把数据分组,然后从每个组里面找到异常值,检查这些异常值在其他组是不是噪声. 随便想想.

使用道具

报纸
258172782 发表于 2013-12-13 10:23:19 |只看作者 |坛友微信交流群
好贴 真心希望大家等顶起来 做到集思广益

使用道具

地板
yuzhuyu 发表于 2013-12-29 10:35:41 |只看作者 |坛友微信交流群
data cleaning 的确是非常关键,谢谢分享!

使用道具

7
冰封的麦穗 发表于 2015-3-27 09:46:32 |只看作者 |坛友微信交流群
一般的GDP数据会有噪声吗?这些噪声是怎样产生的呢?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-18 23:15