楼主: wo5656500
865 7

[CDA] 【CDA】学习笔记|python--数据清洗 [推广有奖]

  • 0关注
  • 0粉丝

教师

高中生

2%

还不是VIP/贵宾

-

威望
0
论坛币
619 个
通用积分
11.1208
学术水平
6 点
热心指数
6 点
信用等级
6 点
经验
139 点
帖子
6
精华
0
在线时间
31 小时
注册时间
2018-9-11
最后登录
2021-8-31

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
学习了一周多的python 新手学习记录。
最近在学习python,python自身的语言,外库 numpy,pands,透视,可视化都有学习一点点,因为种类较多,需要清理思路,所以全部重新整理。交流学习。

一,准备工作
使用Jupyter Notebook窗口练习
导入常用的库
  1. import pandas as pd import numpy as np from pandas import Series,DataFrame  from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"      # 代码都显示不会只显示最后一行%matplotlib inline #在线显示图import matplotlib as mpl  #作图相关 ,偏高级import matplotlib.pyplot as plt  #作图相关 ,偏高级from scipy import stats, integrate #作图相关import seaborn as sns  #作图相关 数据统计图优先使用这个
复制代码
默认文件路径获取
  1. import osos.getcwd()
复制代码
下文 表名=table, column=列名,keyname=关键字名
二,数据的读,写,存储
1),读数据–pandas

表名=pandas.read_csv(‘路径反斜杠/name.csv’,解码名建议加上)
  1. table= pd.read_csv(‘C:/Users/File/table.csv’,encoding=‘utf8’) #读数据1table= pd.read_csv(‘knicks.csv’) #读数据2 如果文件存在默认路径下table.tail() #展示数据方式 ,默认倒数5行table.head() #默认前5行
复制代码
2),写入本地数据
1.默认写入到本地的路径 ; 格式 excel / csv文件

  1. #csvtable.to_csv(table1.csv', encoding='utf-8')
  2. #Excel     index 不写,序号做主键,False就是主键不导出`table.to_excel("table2.xlsx",index = False)
复制代码
三,数据查看
1),基本数据

  1. table.info()   # 常用* 找到 所有字段 是否有空值,数据类型table.shape()  # 多少行,多少列table.describe() #基本统计信息
复制代码
2),查看数据
  1. table. isnull(). sum()     # 查看空值,并计算多少个table [ 'column' ]      # 选择一列table [ 'column' ] [:n]    # 替换n, 某几行数据table [ [ 'column1','column2']  ]   #选择特定多列table.column=table.iloc[0,:] #选择全部列
复制代码
3),筛选数据
  1. table [ table [ 'column' ] == 'keyname']   # 关键字table [ table [ 'column' ] > condition ]   #数字型table [ ( table ['column1'] == 'keyname1') & (table['column2'] == 'keyname2') ] # 多条件;
复制代码
4), 查看非连续的数据


  1. table.column.unique()  # 去重的该列字段,找出来
复制代码
  1. len( table [' column  '].unique() ) # 去重的该列,多少个数据
复制代码
四,数据处理
流程:处理干净的数据,建议保存成为新数据,再进行后续操作;

项目:填充空值,替换,删除列,删除行,新增列, 新增行,合并表数据,排序,转换,重命名列名,规范数据类型,保存为新数据

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python

已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
经管之家编辑部 + 100 + 3 + 3 + 3 精彩帖子

总评分: 论坛币 + 100  学术水平 + 3  热心指数 + 3  信用等级 + 3   查看全部评分

本帖被以下文库推荐

为你点赞!

使用道具

藤椅
artra2012 在职认证  发表于 2019-3-19 16:57:43 |只看作者 |坛友微信交流群
为您点赞!!!

使用道具

板凳
充实每一天 发表于 2019-3-19 17:06:48 来自手机 |只看作者 |坛友微信交流群
已点赞~

使用道具

报纸
sulight 学生认证  发表于 2019-3-19 20:23:51 |只看作者 |坛友微信交流群
谢谢分享,
自学Python不容易啊!

使用道具

地板
bdim 发表于 2019-3-19 23:19:33 |只看作者 |坛友微信交流群
学习下,到时候找您请教

使用道具

7
lonestone 在职认证  发表于 2019-3-20 07:05:13 来自手机 |只看作者 |坛友微信交流群
wo5656500 发表于 2019-3-19 16:16
学习了一周多的python 新手学习记录。
最近在学习python,python自身的语言,外库 numpy,pands,透视,可视 ...
谢谢

使用道具

8
hifinecon 发表于 2019-3-20 08:21:53 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-26 22:47