楼主: CDA网校
825 0

[每天一个数据分析师] 如何利用 pandas 根据数据类型进行筛选? [推广有奖]

管理员

已卖:189份资源

泰斗

4%

还不是VIP/贵宾

-

威望
3
论坛币
120347 个
通用积分
11135.8062
学术水平
278 点
热心指数
286 点
信用等级
253 点
经验
229028 点
帖子
6989
精华
19
在线时间
4389 小时
注册时间
2019-9-13
最后登录
2026-1-22

初级热心勋章

楼主
CDA网校 学生认证  发表于 2022-5-11 10:14:34 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

来源:早起Python

作者:刘早起

前两天,有一位读者在知识星球提出了一个关于 pandas数据清洗的问题。

如何利用 pandas 根据数据类型进行筛选?

他的数据大致如下

如何利用 pandas 根据数据类型进行筛选?

现在希望分别做如下清洗

“A列中非字符行B列中非日期行C列中数值形式行(包括科学计数法的数值)D列中非整数行删掉C列中大小在10%-90%范围之外的行”

其实本质上都是「数据筛选」的问题,先来模拟下数据

如何利用 pandas 根据数据类型进行筛选?

如上图所示,基本上都是根据数据类型进行数据筛选,下面逐个解决。

取出所有非整数类型

让我们从第 4 题开始,取出 D 列全部非整数行,其实在 pandas中可以使用.is_integer() 判断一个元素是否为整数。

这样我们就能结合 apply 函数找到全部整数行

如何利用 pandas 根据数据类型进行筛选?

再使用 ~ 取其补集即可得到答案

df[~df[['D']].apply(lambda x: x[0].is_integer(), axis=1)]

# 取出所有数值类型

第 3 题要求取出 C 列所有数值形式的行。

在 pandas同样有直接判断的函数 .isdigit() 判断是否为数值。

所以同上可以结合 apply 函数轻松搞定~

df[df['C'].str.isdigit().isnull()].dropna()

# 取出非日期行

至于第 2 题,pandas中虽有直接判断时间格式函数,但由于存在其他类型数据,该列为ob ject,并不能直接判断。

所以只要我们将该列转换为时间格式(见习题 8-12)就会将不支持转换的格式修改为缺失值

这样在转换后删除确实值即可

如何利用 pandas 根据数据类型进行筛选?

取出非字符行

至于第 1 题,我们可以借助 Python 中 isinstance 函数判断一个变量是否为字符串格式

再同样借助 apply 函数即可找到全部字符串的行,然后使用 ~ 取其补集即可

如何利用 pandas 根据数据类型进行筛选?

自定义异常值范围

最后是一个看上去是异常值处理的问题,但本质上还是数据筛选。

直接计算该列的指定范围,并多条件筛选即可。

如何利用 pandas 根据数据类型进行筛选?

至此我们就成功利用 pandas根据 数据类型 进行筛选值。

      相关帖子DA内容精选

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:pandas panda 数据类型 Das instance

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-28 07:11