现实使用的数据常常是含有噪声的、遗漏的和不一致的。无论是进行统计分析、机器学习还是深度学习,都要求数据真实可靠,数据格式统一。
所以,数据清洗到底是在清洗些什么?
通常来说,你所获取到的原始数据不能直接用来分析,因为它们会有各种各样的问题,如包含无效信息,列名不规范、格式不一致,存在重复值,缺失值,异常值等.....
本次直播给大家介绍如何用Python中自带的Pandas和NumPy库进行数据清洗。在正式介绍直播内容之前,先简单介绍一下这两个非常好用的库。
Pandas的名称来自于Panel data和Python数据分析data analysis,是Python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,被作为金融数据分析工具,为时间序列分析提供了很好的支持,并于2009年底开源出来。
NumPy是Numeric Python的缩写,是Python的一种开源的数值计算扩展,可用来存储和处理大型矩阵matrix,比Python自身的嵌套列表结构要高效的多,提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库,专为进行严格的数字处理而产生。
=== 直播公开课 ===
一、直播主题
使用Pandas进行数据清洗案例实战
二、直播时间
5月24日 周五 20:00~21:00
三、直播提纲
1. 为什么要做数据清洗?
2. 什么是干净的数据:完整、一致、真实可靠、正确、唯一
3. 数据清洗的一般过程:观测分析-模式匹配-清洗处理
4. 案例一则:产品供应时间分析案例
四、参与直播
1. 在线报名预约
http://www.peixun.net/view/1391.html
2. 扫码添加好友回复“Python”加入直播群: