人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › 25个案例强化Pandas groupby 操作！

发帖

楼主: CDA网校

526 2

[数据挖掘理论与案例] 25个案例强化Pandas groupby 操作！ [推广有奖]

4关注
124
粉丝

管理员

已卖：189份资源

泰斗

还不是VIP/贵宾

威望: 3 级
论坛币: 134768 个
通用积分: 14149.6600
学术水平: 278 点
热心指数: 286 点
信用等级: 253 点
经验: 234208 点
帖子: 7318
精华: 19
在线时间: 4459 小时
注册时间: 2019-9-13
最后登录: 2026-4-23

楼主

CDA网校

发表于 2022-11-16 10:02:47 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

来源丨DeepHub IMBA

groupby是Pandas在数据分析中最常用的函数之一。它用于根据给定列中的不同值对数据点(即行)进行分组，分组后的数据可以计算生成组的聚合值。
如果我们有一个包含汽车品牌和价格信息的数据集，那么可以使用groupby功能来计算每个品牌的平均价格。

在本文中，我们将使用25个示例来详细介绍groupby函数的用法。这25个示例中还包含了一些不太常用但在各种任务中都能派上用场的操作。
这里使用的数据集是随机生成的，我们把它当作一个销售的数据集。

import pandas as pd
sales = pd.read_csv("sales_data.csv")
sales.head()

复制代码

1、单列聚合
我们可以计算出每个店铺的平均库存数量如下:

sales.groupby("store")["stock_qty"].mean()
#输出
store
Daisy 1811.861702
Rose 1677.680000
Violet 14622.406061
Name: stock_qty, dtype: float64

复制代码

2、多列聚合
在一个操作中进行多个聚合。以下是我们如何计算每个商店的平均库存数量和价格。

sales.groupby("store")[["stock_qty","price"]].mean()

复制代码

3、多列多个聚合
我们还可以使用agg函数来计算多个聚合值。

sales.groupby("store")["stock_qty"].agg(["mean", "max"])

复制代码

4、对聚合结果进行命名
在前面的两个示例中，聚合列表示什么还不清楚。例如，“mean”并没有告诉我们它是什么的均值。在这种情况下，我们可以对聚合的结果进行命名。

sales.groupby("store").agg(
avg_stock_qty = ("stock_qty", "mean"),
max_stock_qty = ("stock_qty", "max")
)

复制代码

要聚合的列和函数名需要写在元组中。
5、多个聚合和多个函数

sales.groupby("store")[["stock_qty","price"]].agg(["mean", "max"])

复制代码

6、对不同列的聚合进行命名

sales.groupby("store").agg(
avg_stock_qty = ("stock_qty", "mean"),
avg_price = ("price", "mean")
)

复制代码

7、as_index参数
如果groupby操作的输出是DataFrame，可以使用as_index参数使它们成为DataFrame中的一列。

sales.groupby("store", as_index=False).agg(
avg_stock_qty = ("stock_qty", "mean"),
avg_price = ("price", "mean")
)

复制代码

sales.groupby(["store","product_group"], as_index=False).agg(
avg_sales = ("last_week_sales", "mean")
).head()

复制代码

8、用于分组的多列
就像我们可以聚合多个列一样，我们也可以使用多个列进行分组。

sales.groupby(["store","product_group"], as_index=False).agg(
avg_sales = ("last_week_sales", "mean")
).head()

复制代码

每个商店和产品的组合都会生成一个组。
9、排序输出
可以使用sort_values函数根据聚合列对输出进行排序。

sales.groupby(["store","product_group"], as_index=False).agg( avg_sales = ("last_week_sales", "mean")
).sort_values(by="avg_sales", ascending=False).head()

复制代码