楼主: 我是小趴菜
348 0

[数据挖掘新闻] 如何在python中进行描述性分析? [推广有奖]

  • 0关注
  • 4粉丝

教授

35%

还不是VIP/贵宾

-

威望
0
论坛币
29650 个
通用积分
380.5350
学术水平
1 点
热心指数
1 点
信用等级
0 点
经验
7150 点
帖子
670
精华
0
在线时间
37 小时
注册时间
2022-8-30
最后登录
2023-4-4

楼主
我是小趴菜 发表于 2022-11-8 10:39:22 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

描述性统计信息是了解数据特征并快速汇总数据的有用方法。python中的pandas提供了一个有趣的方法describe()。describe函数对数据集应用基本统计计算,如极值,数据点标准偏差等。自动跳过任何缺失值或NaN值。describe()函数给出了数据分布的大致情况。

DF.describe()


这是在代码上运行时输出的输出:



另一个有用的方法,如果value_counts()可以计算分类属性值系列中每个类别的计数。例如,假设您正在处理客户数据集,这些客户在列名称年龄下划分为年轻,中等和旧类别,而您的数据框架为“DF”。您可以运行此语句以了解有多少人属于各自的类别。在我们的数据集示例中,可以使用教育列

DF["education"].value_counts()


上面代码的输出将是:




另一个有用的工具是boxplot,您可以通过matplotlib模块使用它。Boxplot是数据分布的图形表示,显示极值,中位数和四分位数。我们可以通过使用箱线图轻松找出异常值。现在考虑我们再次处理的数据集,并绘制属性总体的箱线图

import pandas as pd
import matplotlib.pyplot as plt
DF = pd.read_csv("https://raw.githubusercontent.com / fivethirtyeight / data / master / airline-safety / airline-safety.csv")
y = list(DF.population)
plt.boxplot(y)
plt.show()


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 描述性分析 描述性 Matplotlib Population

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-22 08:22