发帖

楼主: 秃头女研究生

1832 0

[经济学基础] 20个案例详解Pandas当中的数据统计分析与排序 [推广有奖]

3关注
86粉丝

已卖：4931份资源

大师

1%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 422828 个
通用积分: 1139.2203
学术水平: 25 点
热心指数: 23 点
信用等级: 10 点
经验: 274394 点
帖子: 3535
精华: 0
在线时间: 6496 小时
注册时间: 2020-11-11
最后登录: 2026-3-2

楼主

秃头女研究生

发表于 2022-1-8 09:30:01 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

20个案例详解Pandas当中的数据统计分析与排序[color=rgba(0, 0, 0, 0.298039215686275)][backcolor=rgba(0, 0, 0, 0.0470588)]来源：公众号俊欣 [url=]关于数据分析与可视化[/url]
导入模块并且读取数据库我们这次用到的数据集是“非常有名”的泰坦尼克号的数据集，该数据源能够在很多平台上都能够找得到import pandas as pd
df = pd.read_csv("titanic_train.csv")
df.head()

output

常规的用法首先我们来看一下常规的用法，代码如下
df['Embarked'].value_counts()

output
S 644
C 168
Q    77
Name: Embarked, dtype: int64

下面我们简单来介绍一下value_counts()方法当中的参数，
DataFrame.value_counts(subset=None,
                     normalize=False,
                     sort=True,
                     ascending=False,
                     dropna=True)
常用到参数的具体解释为：
subset: 表示根据什么字段或者索引来进行统计分析
normalize: 返回的是比例而不是频次
ascending: 降序还是升序来排
dropna: 是否需要包含有空值的行

对数值进行排序上面返回的结果是按照从大到小来进行排序的，当然我们也可以反过来，从小到大来进行排序，代码如下df['Embarked'].value_counts(ascending=True)

output
Q    77
C 168
S 644
Name: Embarked, dtype: int64

对索引的字母进行排序同时我们也可以对索引，按照字母表的顺序来进行排序，代码如下
df['Embarked'].value_counts(ascending=True).sort_index(ascending=True)

output
C 168
Q    77
S 644
Name: Embarked, dtype: int64

当中的ascending=True指的是升序排序

包含对空值的统计默认的是value_counts()方法不会对空值进行统计，那要是我们也希望对空值进行统计的话，就可以加上dropna参数，代码如下df['Embarked'].value_counts(dropna=False)

output
S    644
C    168
Q    77
NaN    2
Name: Embarked, dtype: int64

百分比式的数据统计我们可以将数值的统计转化成百分比式的统计，可以更加直观地看到每一个类别的占比，代码如下df['Embarked'].value_counts(normalize=True)

output
S 0.724409
C 0.188976
Q 0.086614
Name: Embarked, dtype: float64
要是我们希望对能够在后面加上一个百分比的符号，则需要在Pandas中加以设置，对数据的展示加以设置，代码如下pd.set_option('display.float_format', '{:.2%}'.format)
df['Embarked'].value_counts(normalize = True)

output
S 72.44%
C 18.90%
Q 8.66%
Name: Embarked, dtype: float64

当然除此之外，我们还可以这么来做，代码如下
df['Embarked'].value_counts(normalize = True).to_frame().style.format('{:.2%}')

output
  Embarked
S 72.44%
C 18.90%
Q 8.66%

连续型数据分箱和Pandas模块当中的cut()方法相类似的在于，我们这里也可以将连续型数据进行分箱然后再来统计，代码如下df['Fare'].value_counts(bins=3)

output
(-0.513, 170.776]    871
(170.776, 341.553]    17
(341.553, 512.329]    3
Name: Fare, dtype: int64
我们将Fare这一列同等份的分成3组然后再来进行统计，当然我们也可以自定义每一个分组的上限与下限，代码如下df['Fare'].value_counts(bins=[-1, 20, 100, 550])

output
(-1.001, 20.0] 515
(20.0, 100.0]    323
(100.0, 550.0]    53
Name: Fare, dtype: int64

分组再统计pandas模块当中的groupby()方法允许对数据集进行分组，它也可以和value_counts()方法联用更好地来进行统计分析，代码如下df.groupby('Embarked')['Sex'].value_counts()

output
Embarked  Sex
C       male    95
      female    73
Q       male    41
      female    36
S       male    441
      female 203
Name: Sex, dtype: int64
上面的代码是针对“Embarked”这一类别下的“Sex”特征进行分组，然后再进一步进行数据的统计分析，当然出来的结果是Series数据结构，要是我们想让Series的数据结果编程DataFrame数据结构，可以这么来做，df.groupby('Embarked')['Sex'].value_counts().to_frame()
数据集的排序下面我们来谈一下数据的排序，主要用到的是sort_values()方法，例如我们根据“年龄”这一列来进行排序，排序的方式为降序排，代码如下df.sort_values("Age", ascending = False).head(10)

output

对行索引重新排序我们看到排序过之后的DataFrame数据集行索引依然没有变，我们希望行索引依然可以是从0开始依次的递增，就可以这么来做，代码如下df.sort_values("Age", ascending = False, ignore_index = True).head(10)

output
下面我们简单来介绍一下sort_values()方法当中的参数
DataFrame.sort_values(by,
            axis=0,
            ascending=True,
            inplace=False,
            kind='quicksort',
            na_position='last', # last，first；默认是last
            ignore_index=False,
            key=None)
常用到参数的具体解释为：
by: 表示根据什么字段或者索引来进行排序，可以是一个或者是多个
axis: 是水平方向排序还是垂直方向排序，默认是垂直方向
ascending: 排序方式，是升序还是降序来排
inplace: 是生成新的DataFrame还是在原有的基础上进行修改
kind: 所用到的排序的算法，有快排quicksort或者是归并排序mergesort、堆排序heapsort等等
ignore_index: 是否对行索引进行重新的排序

对多个字段的排序我们还可以对多个字段进行排序，代码如下
df.sort_values(["Age", "Fare"], ascending = False).head(10)

output
同时我们也可以对不同的字段指定不同的排序方式，如下
df.sort_values(["Age", "Fare"], ascending = [False, True]).head(10)

output
我们可以看到在“Age”一样的情况下，“Fare”字段是按照升序的顺序来排的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：pandas 数据统计分析 panda 统计分析数据统计

[经济学基础] 20个案例详解Pandas当中的数据统计分析与排序 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[经济学基础] 20个案例详解Pandas当中的数据统计分析与排序 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群