人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › python论坛 › 数据集的聚合（Aggregation）与分组（Grouping）

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

返回列表

发帖

楼主: casey_c

1775 1

[程序分享] 数据集的聚合（Aggregation）与分组（Grouping） [推广有奖]

0关注
10粉丝

博士生

92%

还不是VIP/贵宾

威望: 0 级
论坛币: 96 个
通用积分: 2.0091
学术水平: 2 点
热心指数: 15 点
信用等级: 2 点
经验: 11502 点
帖子: 278
精华: 0
在线时间: 94 小时
注册时间: 2016-11-22
最后登录: 2022-5-2

楼主

casey_c 发表于 2017-3-3 11:26:28 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

首先导入所需的 Pandas 库与 Numpy 库，以及构建方便于结果展示的 display 类：

import numpy as np
import pandas as pd
class display(object):
"""Display HTML representation of multiple objects"""
template = """<div style="float: left; padding: 10px;">
<p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
</div>"""
def __init__(self, *args):
self.args = args
def _repr_html_(self):
return '\n'.join(self.template.format(a, eval(a)._repr_html_())
for a in self.args)
def __repr__(self):
return '\n\n'.join(a + '\n' + repr(eval(a))
for a in self.args)

复制代码

接下来，我们导入 Seaborn 库，我们可以在这个库里找到我们所需的示例数据——一份天文观测数据：

import seaborn as sns
planets = sns.load_dataset('planets')
planets.shape

复制代码

(1035, 6)
如下所示，我们的天文观测数据中一共有1035条记录，包含了所观测星球的轨道周期、质量等 6 个字段：

planets.head()

复制代码

作为一般的流程，我们会对得到的数据集进行一下汇总分析，在前面的章节中我们曾经了解过 Pandas 库中自带的 sum 函数与 mean 函数：

rng = np.random.RandomState(42)
ser = pd.Series(rng.rand(5))
ser

复制代码

ser.sum()

复制代码

2.8119254917081569

ser.mean()

复制代码

0.56238509834163142

df = pd.DataFrame({'A': rng.rand(5),
'B': rng.rand(5)})
df

复制代码

df.mean()

复制代码

df.mean(axis='columns')

复制代码

在这个例子中，推荐大家使用 describe 函数，这个函数能够一次性输出每个列元素的多项关键统计指标，并且组织为数据框形式：

planets.dropna().describe()

复制代码

接下来，我们将向大家演示如何进行数据的分组，Pandas 库中的 groupby 函数能够根据指定的列名创建对应的 DataFrameGroupBy 对象：

df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
'data': range(6)}, columns=['key', 'data'])
df

复制代码

df.groupby('key')

复制代码

<pandas.core.groupby.DataFrameGroupBy object at 0x7feaf87b9050>
对 DataFrameGroupBy 调用一系列函数则可以得到我们想要的分组汇总结果，如计算样本数总和：

df.groupby('key').sum()

复制代码

我们类似的操作处理示例的天文观测数据，查看一下每一种 method 下观测到的星球轨道周期中位数：

planets.groupby('method')

复制代码

<pandas.core.groupby.DataFrameGroupBy object at 0x7feaf87b9a90>

planets.groupby('method')['orbital_period']

复制代码

<pandas.core.groupby.SeriesGroupBy object at 0x7feaf87d6050>

planets.groupby('method')['orbital_period'].median()

复制代码

以上内容转自数析学院，原文内容较多，暂时搬运到这，有需要的同学可以直接查看原文

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

[程序分享] 数据集的聚合（Aggregation）与分组（Grouping） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[程序分享] 数据集的聚合（Aggregation）与分组（Grouping） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群