最近在学习python,python自身的语言,外库 numpy,pands,透视,可视化都有学习一点点,因为种类较多,需要清理思路,所以全部重新整理。交流学习。
一,准备工作
使用Jupyter Notebook窗口练习
导入常用的库
- import pandas as pd import numpy as np from pandas import Series,DataFrame from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all" # 代码都显示不会只显示最后一行%matplotlib inline #在线显示图import matplotlib as mpl #作图相关 ,偏高级import matplotlib.pyplot as plt #作图相关 ,偏高级from scipy import stats, integrate #作图相关import seaborn as sns #作图相关 数据统计图优先使用这个
- import osos.getcwd()
二,数据的读,写,存储
1),读数据–pandas
表名=pandas.read_csv(‘路径反斜杠/name.csv’,解码名建议加上)
- table= pd.read_csv(‘C:/Users/File/table.csv’,encoding=‘utf8’) #读数据1table= pd.read_csv(‘knicks.csv’) #读数据2 如果文件存在默认路径下table.tail() #展示数据方式 ,默认倒数5行table.head() #默认前5行
1.默认写入到本地的路径 ; 格式 excel / csv文件
- #csvtable.to_csv(table1.csv', encoding='utf-8')
- #Excel index 不写,序号做主键,False就是主键不导出`table.to_excel("table2.xlsx",index = False)
1),基本数据
- table.info() # 常用* 找到 所有字段 是否有空值,数据类型table.shape() # 多少行,多少列table.describe() #基本统计信息
- table. isnull(). sum() # 查看空值,并计算多少个table [ 'column' ] # 选择一列table [ 'column' ] [:n] # 替换n, 某几行数据table [ [ 'column1','column2'] ] #选择特定多列table.column=table.iloc[0,:] #选择全部列
- table [ table [ 'column' ] == 'keyname'] # 关键字table [ table [ 'column' ] > condition ] #数字型table [ ( table ['column1'] == 'keyname1') & (table['column2'] == 'keyname2') ] # 多条件;
- table.column.unique() # 去重的该列字段,找出来
- len( table [' column '].unique() ) # 去重的该列,多少个数据
流程:处理干净的数据,建议保存成为新数据,再进行后续操作;
项目:填充空值,替换,删除列,删除行,新增列, 新增行,合并表数据,排序,转换,重命名列名,规范数据类型,保存为新数据