[学科前沿] CDA直播-使用Pandas高效提升数据质量 [推广有奖]

27 个论坛币

回复本帖可获得 3 个论坛币奖励! 每人限 1 次

4关注
69粉丝

教授

69%

还不是VIP/贵宾

威望: 1 级
论坛币: 25044 个
通用积分: 98.3144
学术水平: 71 点
热心指数: 100 点
信用等级: 50 点
经验: 20635 点
帖子: 738
精华: 1
在线时间: 1301 小时
注册时间: 2015-8-6
最后登录: 2023-7-5

楼主

浮世若离丶 发表于 2019-7-18 10:17:18 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

“数据科学家们80%的精力消耗在查找、数据清理、数据组织上，只剩于20%时间用于数据分析等。”——IBM数据分析

现实使用的数据常常是含有噪声的、遗漏的和不一致的。无论是进行统计分析、机器学习还是深度学习，都要求数据真实可靠，数据格式统一。

你可能要问，数据清洗处于数据分析的什么位置？
图片 1.png

按照IBM SPSS跨产业的数据挖掘标准处理流程，将数据挖掘工作流程分为以下六个阶段：商业理解-数据理解-数据预处理-建模分析-模型评估-模型应用。当然从上图可以看出，整个流程不是单一的，而是循环往复的过程。
“”

“有高质量的数据，才会有高质量的数据挖掘结果”。在数据挖掘的整个运行过程中，数据处理是最重要的一个步骤，数据处理的得当，对后续的数据挖掘过程是否有效和质量的好坏有着重要的影响。
同时数据前处理在整个数据挖掘的过程中，其重要性和所花费的时间，均居其他步骤的首位。

所以，数据清洗到底是在清洗些什么？

通常来说，你所获取到的原始数据不能直接用来分析，因为它们会有各种各样的问题，如包含无效信息，列名不规范、格式不一致，存在重复值，缺失值，异常值等.....

工欲善其事，必先利其器。应该如何选择数据清洗的工具？

这里就不得不提到Pandas。Pandas通常是用于数据挖掘和清理阶段，也就是在数据采集和存储和数据建模和预测之间的中间工具，它在数据科学中起到了关键作用。

对于一个典型的数据科学家来说，Pandas将在数据通过管道时扮演最重要的角色。量化这一点的一个指标是Stack Overflow APP上的趋势。
图片 2.png

可以看出，Pandas在Stack Overflow的活动超过其他任何Python数据科学库，并占据整个站点上提交的所有新问题的1％。
本次公开课，我们邀请到了数据挖掘工程师刘静老师，和你一起分享使用Pandas高效提升数据质量的话题。

在线报名预约直播：
（报名流程：点击我要报名-提交订单-等待直播开始-进入直播）

http://www.peixun.net/view/1418.html

扫码加入交流群领取资料：
7.18数据处理海报(1).jpg