3867 3

[问题] 求数据清洗的案例分析资料 [推广有奖]

  • 6关注
  • 1粉丝

博士生

24%

还不是VIP/贵宾

-

TA的文库  其他...

人大统计2014

威望
0
论坛币
8223 个
通用积分
9.0234
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
1776 点
帖子
72
精华
0
在线时间
404 小时
注册时间
2012-5-31
最后登录
2024-4-19

50论坛币
       本人第一次做数据清洗,虽然之前有学过一些数据清洗的方法,但是仍然对手头噪音很大,数量很多的数据感觉到无从下手。现征求各位高手看过的好的关于数据清洗的案例书或其他资料,或者关于如何对大量原始数据一步步分析建模的,要求讲的越具体越好。
      谢谢大家帮忙!

最佳答案

hzcmaster 查看完整内容

专题性质的:Functional Data Analysis和Functional Data Analysis with R and MATLAB可以看一看,前者讲的是方法与实例,后者是配套的代码解释与说明。 涉及面较广的: R数据分析——方法与案例详解,电子工业出版社。 以上均可找到电子版的内容,如果看了有兴趣建议买纸质的。
关键词:案例分析 求数据 数据清洗的方法 原始数据 无从下手 案例分析 清洗 资料 如何
沙发
hzcmaster 发表于 2015-3-31 21:44:46 |只看作者 |坛友微信交流群
幸运的小p超 发表于 2015-5-25 15:58
谢谢你,一些基本的处理理论倒是看过一些,不知道题主有没有一些关于统计处理的详细的案例分析书可以推荐 ...
专题性质的:Functional Data Analysis和Functional Data Analysis with R and MATLAB可以看一看,前者讲的是方法与实例,后者是配套的代码解释与说明。
涉及面较广的:
R数据分析——方法与案例详解,电子工业出版社。
以上均可找到电子版的内容,如果看了有兴趣建议买纸质的。
已有 1 人评分论坛币 收起 理由
admin_kefu + 30 热心帮助其他会员

总评分: 论坛币 + 30   查看全部评分

使用道具

藤椅
hzcmaster 发表于 2015-5-20 13:30:52 |只看作者 |坛友微信交流群
数据清洗的方法有很多,一一介绍也不太现实,按降噪类型大致描述一下吧
第一类:缺失数据
这一类的处理方法当数据量适中或较少时以补齐居多,如果数据量很大,一般缺失数据可以忽略也就是剔除。补齐的方法通常用均值、中位数等等特征值来代替,复杂一点可以利用插值或者拟合,这一类方法可以参考有关回归的书籍
第二类:异常数据
这一类问题的处理方法是剔除异常点,给定一个标准例如KL距离,COOK距离将异常点挑选出来剔除,详细内容见《统计诊断》
第三类:拟合
经过缺失、异常点处理后的数据算是质量较好的数据,但是这类数据存在随机误差,也就是说你观察到的数据与真实数据之间有一定的偏差,这个偏差我们记为随机误epsilon。要想得到接近真实的数据,我们就要消除随机误差和人为误差。
随机误差一般通过拟合的方法,有关拟合的统计书籍很多,就不一一介绍了。说一下人为误差,我们想要直到一个人的字迹,就需要对他已有的字迹进行总结,但是,他的字迹大小未必相同,起笔的时间未必相同,所以为了消除大小、时间的影响,我们有必要进行重复观测,然后经过时间和位置的平移,再进行拟合。详情可见《functional data analysis》
在此之前,希望楼主先掌握一些统计的常用基本工具,这会让你对数据处理有更多的认识。可参考《The elements of statistical learning》
已有 1 人评分论坛币 收起 理由
admin_kefu + 50 热心帮助其他会员

总评分: 论坛币 + 50   查看全部评分

使用道具

hzcmaster 发表于 2015-5-20 13:30
数据清洗的方法有很多,一一介绍也不太现实,按降噪类型大致描述一下吧
第一类:缺失数据
这一类的处理方 ...
谢谢你,一些基本的处理理论倒是看过一些,不知道题主有没有一些关于统计处理的详细的案例分析书可以推荐的?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-24 12:14