现实使用的数据常常是含有噪声的、遗漏的和不一致的。无论是进行统计分析、机器学习还是深度学习,都要求数据真实可靠,数据格式统一。
你可能要问,数据清洗处于数据分析的什么位置?
按照IBM SPSS跨产业的数据挖掘标准处理流程,将数据挖掘工作流程分为以下六个阶段:商业理解-数据理解-数据预处理-建模分析-模型评估-模型应用。当然从上图可以看出,整个流程不是单一的,而是循环往复的过程。
“”
“有高质量的数据,才会有高质量的数据挖掘结果”。在数据挖掘的整个运行过程中,数据处理是最重要的一个步骤,数据处理的得当,对后续的数据挖掘过程是否有效和质量的好坏有着重要的影响。
同时数据前处理在整个数据挖掘的过程中,其重要性和所花费的时间,均居其他步骤的首位。
所以,数据清洗到底是在清洗些什么?
通常来说,你所获取到的原始数据不能直接用来分析,因为它们会有各种各样的问题,如包含无效信息,列名不规范、格式不一致,存在重复值,缺失值,异常值等.....
工欲善其事,必先利其器。应该如何选择数据清洗的工具?
这里就不得不提到Pandas。Pandas通常是用于数据挖掘和清理阶段,也就是在数据采集和存储和数据建模和预测之间的中间工具,它在数据科学中起到了关键作用。
对于一个典型的数据科学家来说,Pandas将在数据通过管道时扮演最重要的角色。量化这一点的一个指标是Stack Overflow APP上的趋势。
可以看出,Pandas在Stack Overflow的活动超过其他任何Python数据科学库,并占据整个站点上提交的所有新问题的1%。
本次公开课,我们邀请到了数据挖掘工程师刘静老师,和你一起分享使用Pandas高效提升数据质量的话题。
在线报名预约直播:
(报名流程:点击我要报名-提交订单-等待直播开始-进入直播)
http://www.peixun.net/view/1418.html
扫码加入交流群领取资料: