Python数据分析实战基础(二)：清洗常用4板斧——CDA人工智能学院-经管之家官网！

经济学管理学金融学统计学

您当前的位置> 数据>>

Python数据分析实战基础(二)：清洗常用4板斧——CDA人工智能学院

人大经济论坛-经管之家：分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易，真正实现买卖双方的共赢。【请点击这里访问】

TOP热门关键词

专题页面精选

CDA人工智能学院：数据科学、人工智能从业者的在线学院。数据科学（Python/R/Julia）数据分析、机器学习、深度学习作者|吹牛Z来源|数据不吹牛原文|Python数据分析实战基础|清洗常用4板斧首先，导入案例数据集。因为案 ...

扫码加入数据分析学习群

CDA人工智能学院：数据科学、人工智能从业者的在线学院。

数据科学（Python/R/Julia）数据分析、机器学习、深度学习

作者 | 吹牛Z
来源 | 数据不吹牛
原文 | Python数据分析实战基础 | 清洗常用4板斧

首先，导入案例数据集。因为案例数据存放在同一个Excel表的不同Sheet下，我们需要指定sheetname分别读取：

https://p1.pstatp.com/large/pgc-image/f3e08dcd8f2246f8b21e994f987d8080

下面开始清洗的正餐。

01 增——拓展数据维度

1.1 纵向合并

这三个sheet的数据，维度完全一致（每列数据都是一样），纵向合并起来分析十分方便。说到纵向合并，concat大佬不请自来，他的招式简单明了——pd.concat([表1，表2，表3])，对于列字段统一的数据，我们只需把表依次传入参数：

https://p9.pstatp.com/large/pgc-image/b6d2fc4bc02b48d289565f8a036e2ed6

concat大佬继续说到：“其实把我参数axis设置成1就可以横向合并.."说时迟那时快，我一个箭步冲上去捂住他的嘴巴“牛逼的人做好一件事就够了，横向的就交给merge吧~”

小Z温馨提示：pandas中很多函数功能十分强大，能够实现多种功能，但对于萌新来说，过多甚至交叉的功能往往会造成懵B的状态，所以这里一种功能先只用一种方式来实现。

1.2 横向合并

横向合并涉及到连接问题，为方便理解，我们构造一些更有代表性的数据集练手：

https://p1.pstatp.com/large/pgc-image/59a0f753da994fd690c6ea427655f564

两个DataFrame是两张成绩表，h1是5位同学的数学、英语、语文成绩，h2是4位同学的篮球和舞蹈成绩，现在想找到并合并两张表同时出现的同学及其成绩，可以用merge方法：

https://p1.pstatp.com/large/pgc-image/e05a036460274b5c875c909e5b213b17

我们来详解一下merge的参数，left和rgiht分别对应着需要连接的左表和右表，这里语数外成绩表是左表，篮球、舞蹈成绩是右表。

left_index与right_index是当我们用索引（这两个表的名字在索引中）连接时指定的参数，设置为on表示用该表的索引作为连接的条件（或者说桥梁）。假设姓名是单独的一列值，且需要根据姓名进行匹配，那就需要用“left_on = '姓名',right_on = '姓名'”，我们可以分别指定左表的匹配列和右表的匹配列。

how是指定连接方式，这里用的inner，表示我们基于姓名索引来匹配，只返回两个表中共同（同时出现）姓名的数据。下面详解一下inner还涉及到的其他参数——left,right,outer。

左右连接（left和right）：

https://p1.pstatp.com/large/pgc-image/8ec97280dba94abb97dcca0f28a0c71a

左连接（left）和右连接（right），我们可以直观理解为哪边的表是老大，谁是老大，就听谁的（所有行全部保持），先看左连接，左表h1原封不动，右边根据左表进行合并，如果存在相关的名字，就正常返回数据，如果不存在（韩梅梅、李雷），就返回空(NAN)值；右连接就是听右表的，左表有则返回无则为空。

外连接（outer）：

https://p3.pstatp.com/large/pgc-image/bbe3d961018e4157ad796ac5ad2dd8d4

外连接是两张表妥协的产物，我的数据全保留，你的也全保留，你有我无的就空着，你无我有的也空着。

02 删——删空去重

2.1 删空

在一些场景，源数据的缺失（空值）对于分析来说是干扰项，需要系统的删除。上文我们合并后的df数据集就是有缺失数据的：

https://p3.pstatp.com/large/pgc-image/446b20ce3e9241fca15c0ccb867812cb

要删除空值，一个dropna即可搞定：

https://p3.pstatp.com/large/pgc-image/ca51de0ea5ac4f8f9e3beda88884d883

dropna函数默认删除所有出现空值的行，即只要一行中任意一个字段为空，就会被删除。我们可以设置subset参数，例如dropna(subset = ['city'])，来指定当一行中的city字段为空时，才会被删除。

2.2 去重

说是讲去重，但是案例数据比较干净，没有两行数据是完全一样的，所以我们要制造点困难，增加几行重复值：

https://p1.pstatp.com/large/pgc-image/93163edd7b7e47cc8accab953a36503f

把源数据重复两遍，赋值给repeat，这样每一行数据都有重复的数据。要把重复数据删掉，一行代码就搞定：

https://p9.pstatp.com/large/pgc-image/6a16d86cd8f64502bca671094ac16881

drop_duplicates方法去重默认会删掉完全重复的行（每个值都一样的行），如果我们要删除指定列重复的数据，可以通过指定subset参数来实现，假如我们有个奇葩想法，要基于“流量级别”这列进行去重，则可以：

https://p1.pstatp.com/large/pgc-image/661c0e8e6f37418bb370ba86ce38bb27

我们会发现，流量有三个级别，通过指定subset参数，我们删除了这个字段重复的行，保留了各自不重复的第一行。继续展开讲，在源数据中，流量渠道为“一级”的有7行数据，每行数据其他字段都不相同，这里我们删除了后6行，只保留了第一行，但如果我们想在去重的过程中删除前面6行，保留最后一行数据怎么操作？答案很简单，指定keep参数即可。

https://p1.pstatp.com/large/pgc-image/b26616a118ca49dbb99314f344785287

keep值等于last，保留最后一行数据，不输入keep值时，系统默认会给keep赋值为first，就会保留第一行数据而删掉其他的。

03 查——基于条件查询

查，不是单纯的返回几行数据，而是根据业务实际需求，基于一定的条件查看和选择数据。

3.1 按条件索引/筛选

loc独白：你没有看错，哥的分量实在是太重了，所以又来抢个沙发，刷个脸熟。

这次需求是筛选出访客数大于10000的一级渠道，loc一下：

https://p9.pstatp.com/large/pgc-image/bf00347a312441b184259d01e41f5f45

在行参数设置好同时满足访客数大于10000和流量级别等于“一级”这两个条件即可。

3.2 排序

很多情况下，我们都需要通过排序来观察数据规律，以及快速筛选出TOP N的数据项。对于案例数据，我们怎么样按交易金额进行排序并筛选出TOP3的渠道呢？

问题的关键就在于排序，这个时候sort_values函数就派上用场了：

https://p1.pstatp.com/large/pgc-image/a4c81a3a16eb458584d6d60f2e47837d

整个操作十分简单，sort_values函数，顾名思义是按照数值进行排序，首先要传入的参数是列参数，即我们根据哪一列的数值来进行排序，ascending参数决定了排序顺序，等于Flase则是从大到小的降序，设置为True则是升序。

排序完之后，筛选TOP3渠道就非常简单：

https://p1.pstatp.com/large/pgc-image/5a783d93e9d149f7bd6942eb35b824f3

补充一个知识点，如果跟着文章操作，会发现无论是删空的dropna，还是去重的drop_duplicates，或者是排序的sort_values，在对源数据进行操作后，源数据并未改变，这是因为我们没有对这几个函数的inplace值进行设置，如果设置成inplace = True，删空、去重和排序都会在源数据上生效。

但这里为了避免出现不必要的错误而无法更改，更建议大家把操作后的源数据赋值给新的变量，如new = df.dropna()，而不是将源数据的inplace参数设置为True。

04 分——分组和切分

话天下大势，合久必分，数据亦是如此。在分组的版块中，我们重点介绍groupby分组和cut切分。

4.1分组

在案例数据中，总的流量级别有三级，每一级下又有多个投放地区，如果我们想汇总看每个级别流量所对应的总访客数和支付金额，就需要用到分组了。

groupby是分组函数，最主要的参数是列参数，即按照哪一列或者哪几列（多列要用列表外括）进行汇总，这里是按照流量级别：

https://p1.pstatp.com/large/pgc-image/680b943724a140aeaa7d40d32ecc771b

可以看到，直接分组之后，没有返回任何我们期望的数据，要进一步得到数据，需要在分组的时候对相关字段进行计算（常用的计算方法包括sum、max、min、mean、std）：

https://p3.pstatp.com/large/pgc-image/3ef324f075794034b022befa8f138c10

后面加上了sum，代表我们先按照流量级别进行分组，再对分组内的字段求和。由于没有指定求和的列，所以是对所有数值型字段进行了求和。此处我们只想要各级别流量下的访客数和支付金额，需要指明参数：

https://p1.pstatp.com/large/pgc-image/1787cb4633d74ba895b09de88be3211e

流量级别作为汇总的依据列，默认转化为索引列，如果我们不希望它变成索引，向groupby内传入参数as_index = False即可：

https://p1.pstatp.com/large/pgc-image/fe8bd72a858744d982aa20e3159fc33b

4.2 切分

切分（分桶）操作常用于一维数组的分类和打标，cut函数能够高效的完成任务。它的主要参数和用法如下：

https://p1.pstatp.com/large/pgc-image/fa47ee103a79480fa9b6c6328d1ffed2

不要被复杂的解释迷惑，一个例子就完全搞懂了。

以案例数据为例，每个渠道都有对应的访客数，我们现在希望对各渠道访客级、千级和万级的渠道。

我们想对流量级别进行百、千、万的归类，所以把分组数值标准传入bins参数。从结果可以看到，在不设置right的情况下，分组区间是默认左开右闭的，而我们希望的是左闭右开，即百级流量渠道访客数在0-99之间，所以需要将right值设置为False。

下面我们直接对分组后的数据进行打标，访客数在0-99设置为“辣鸡”，100-999设置为百级，千级和万级以此类推，同时将打好标签的数据作为新列给到源

https://p1.pstatp.com/large/pgc-image/ed9485929e2346619eb3a13857337988

非常高效，一行半代码就搞定了分组、判断和打标的过程。

总结

本文从增、删、查、分四个模块，分别介绍了横向、纵向合并；删空、去重；筛选、排序和分组、切分等数据清洗过程中的常见操作。在实际运用中，各操作往往是你中有我，我中有你，共同为了营造一个“干净”的数据而努力。

关注“AIU人工智能实验室”，回复“录播”获取更多人工智能精选直播视频！

完谢谢观看

「经管之家」APP：经管人学习、答疑、交友，就上经管之家！
免流量费下载资料----在经管之家app可以下载论坛上的所有资源，并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库，各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里，你可以找到任何学科方向、有共同话题的朋友。
经管之家（原人大经济论坛），跨越高校的围墙，带你走进经管知识的新世界。
扫描下方二维码下载并注册APP

本文关键词：

本文论坛网址：https://bbs.pinggu.org/thread-8513777-1-1.html

上一篇 | Python数据分析实战基础(一)：初识Pandas ...

下一篇 | 大数据处理的五大关键技术及其应用——CD ...

数据分析精彩帖子推荐更多

您可能感兴趣的文章

本站推荐的文章

人气文章

本文标题：Python数据分析实战基础(二)：清洗常用4板斧——CDA人工智能学院

本文链接网址：https://bbs.pinggu.org/jg/shuju_shujufenxi_8513777_1.html

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责；
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性，不作出任何保证或承若；
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。

Python数据分析实战基础(二)：清洗常用4板斧——CDA人工智能学院-经管之家官网！

数据分析