【学习笔记】数据分析Python——Pandas(1) Panads 介绍 Pandas通常是用于数 ...-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 数据>>

数据分析

>>

【学习笔记】数据分析Python——Pandas(1) Panads 介绍 Pandas通常是用于数 ...

【学习笔记】数据分析Python——Pandas(1) Panads 介绍 Pandas通常是用于数 ...

发布:于家崎 | 分类:数据分析

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

数据分析Python——Pandas(1)Panads介绍Pandas通常是用于数据分析过程中,数据的清洗,数据预处理,数据的描述性分析等过程中.在整个Python数据分析的生态环境中,Pandas的地位非常重要,利用Pandas可以快速便捷的对数据进 ...
扫码加入金融交流群


数据分析Python——Pandas(1)
Panads
介绍
Pandas通常是用于数据分析过程中, 数据的清洗, 数据预处理, 数据的描述性分析等过程中.
在整个Python数据分析的生态环境中, Pandas的地位非常重要, 利用Pandas可以快速便捷的对数据进行各种各样的处理与操作.
Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。
在Pandas中, 最重要的两种数据结构是1维的Series和2维的DataFrame.
Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。
Series中能保存不同种数据类型,字符串、boolean值、数字等都能保存在Series中。但是每个Series中只能保存一种数据结构.
DataFrame:二维的表格型数据结构。有多个Series共同构成的集合就变成DataFrame.
Pandas是基于Numpy的一个数据分析包, 它里面的内核是Numpy
Series
Series 是一个带有 名称 和 索引 的一维数组
既然是数组,肯定要说到的就是数组中的元素类型,在 Series 中包含的数据类型可以是整数、浮点、字符串、Python对象等。
import numpy as np
import pandas as pd
pd.Series(data)
扩展:
s = pd.Series(data ,name=\'英雄年龄\' , index= [\'蜘蛛侠\', \'灭霸\', \'奇异博士\', \'钢铁侠\', \'蝙蝠侠\', \'索尔\'],dtype=\'int32\')
s
蜘蛛侠 22
灭霸 3000
奇异博士 33
钢铁侠 37
蝙蝠侠 40
索尔 1500
Name: 英雄年龄, dtype: int32
字典构建Series:
d = {\'粤菜\': 3,
\"川菜\": 2 ,
\"鲁菜\": 1,
\"闽菜\": 4,
\"苏菜\": 5}
pd.Series(d)
Series的索引和切片
1.字典式索引:同字典的方法,注意:闭区间,可以增加和修改
2.列表式:同列表,注意:左闭右开,可以修改但是不能增加
字典式索引和列表式:只能用于步长一样的提取。
3.传入索引序列的方式:既可以用标签, 也可以用位置,把你要提取的数据的标签或位置打包成一个序列,注意事项: 必须打包再传递。
标签:s[ [\'蜘蛛侠\', \'灭霸\', \'蝙蝠侠\'] ]
位置:s[ [0, 1, -1] ]
删除数据
df.pop()可以弹出指定数据
df.drop() 可以删除指定数据:
重要参数: inplace:
(默认)设置为假, 会生成一个新的数据, 原来的数据不变.
当设置为真的时候, 会直接在原数据中进行操作
思考: 我们什么时候用假, 什么时候用真?
用假的情形:
做一些操作测试, 还没有最终确定要进行这个操作, 就可以用inplace=False.为了以防万一, 保留原来的数据, 同时生成一个新的继续操作.
用真的情况:
我们已经可以确定这个操作没有问题, 就是要在原数据上修改.
两者最大的区别:
对内存的使用效率, 占用4G的内存,
如果是假, 就会复制一个新的4G内存数据, 占用内存更多.
如果是真, 直接在原数据上操作, 仍然是只占用4G内存.
思考: 什么时候用标签索引(显式), 什么时候用位置索引(隐式).
当你知道标签是什么, 想要提取数据的时候就用标签索引.
提取红塔证券的.
当你知道的是数据在表中的位置的时候, 就用位置索引.
举例: 提取数据中的第100个到第200个.
Series计算:与adarray相同
「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-9454209-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
经管之家 人大经济论坛 大学 专业 手机版