以下内容转自 数析学院,只节选了部分,有需要的同学可以直接查看原文
简介
使用随机数生成函数自行构建婴儿名字数据框,并介绍基本的数据框处理方法。
数据来源 - 使用随机数生成函数自行创建婴儿的名字以及数量数据集。
数据准备 - 数据准备 - 从自行创建的数据集中读取所需数据,并进行缺失、异常数据的查看及处理。
分析目标 - 简单地找到在 1880 年最流行的名字。
数据可视化 - 通过表格数据和图表,清晰地展示分析结果。
首先导入 pandas 和 matplotlib 等相关库:
- # 导入教程中所需的全部库
- import pandas as pd
- from numpy import random
- import matplotlib.pyplot as plt
- import sys #只是用来确定 Python 版本号
- import matplotlib #只是用来确定 Matplotlib 确定版本号
- # 能够内联查看绘图,能够直接在单元格内显示
- %matplotlib inline
- print('Python version ' + sys.version)
- print('Pandas version ' + pd.__version__)
- print('Matplotlib version ' + matplotlib.__version__)
1、创建数据假设数据集由 1000 个 1880 年出的生婴儿名字及人数构成,其中会存在大量重复项,也就是将会多次看到同一个婴儿名字出现。可以设想每个名字的多条项目,只是全国不同医院记录每个婴儿名字的数量,所以如果有两家医院记录婴儿的名字为"Bob",则这个数据集对于"BoB"会有两个值。下面就开始创建婴儿名字的随机数据集。
- # 初始化婴儿名字集合
- names = ['Bob','Jessica','Mary','John','Mel']
- random.seed(500)
- random_names = [names[random.randint(low=0,high=len(names))] for i in range(1000)]
- # 输出前10条记录
- random_names[:10]
生成0到1000的随机数
- # 1880年每个出生婴儿名字数量
- births = [random.randint(low=0,high=1000) for i in range(1000)]
- births[:10]
使用zip方法合并 names 和 births 数据集
- BabyDataSet = list(zip(random_names,births))
- BabyDataSet[:10]
基本完成了数据集的构建,接着使用pandas库来导出这个数据集到一个 csv 文件。 df 是一个DataFrame 对象,在格式上类似 sql 表格、excel 表格。
让我们看下df中的内容。
- df = pd.DataFrame(data = BabyDataSet, columns=['Names', 'Births'])
- df[:10]
以上内容节选自 数析学院,原文内容较多,先搬运到这,后续有时间再补充,有需要的同学可以先直接到 数析学院 最新课程查看原文


雷达卡




京公网安备 11010802022788号







