人大经济论坛 › 论坛 › 金融投资论坛六区 › 金融学（理论版） › 量化投资 › 京东量化小馒头之pandas库常用函数汇总

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

返回列表

发帖

楼主: 量化萌娘夕立酱

2158 0

[源码分享] 京东量化小馒头之pandas库常用函数汇总 [推广有奖]

0关注
12粉丝

博士生

50%

还不是VIP/贵宾

威望: 0 级
论坛币: 215 个
通用积分: 3.0135
学术水平: 9 点
热心指数: 23 点
信用等级: 9 点
经验: 3985 点
帖子: 132
精华: 0
在线时间: 133 小时
注册时间: 2017-3-3
最后登录: 2018-7-28

楼主

量化萌娘夕立酱 发表于 2017-6-12 19:32:38 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

阅读原文：http://suo.im/3UWOOP

pandas常用函数整理，作为个人笔记。

仅标记函数大概用途做索引用，具体使用方式请参照pandas官方技术文档。

from pandas import Series, DataFrame

import pandas as pd

import numpy as np

带.的为Series或者DataFrame对象的方法，只列举了部分关键字参数。

1、基础

.values 获取值，返回array对象

.index 获取（行）索引，返回索引对象

Series( index=) 创建Series，可指定索引

pd.isnull pd.notnull 返回是否为缺失值的布尔型数组

.isnull 同上

DataFrame(columns=,index=) 创建DataFrame,可指定行索引，列索引

.T 行列转置

del 关键字删除

.reindex(method=, fill_value=, index=, columns=) 重新索引，即按照新索引创建新对象，可指定缺失值填充方式，缺失值插值方式，行索引，列索引

.ix[ , ] 同上，添入行、列索引，可传入列表

.drop(axis=) 删除指定轴上的指定值

.apply(axis=) 沿指定轴应用函数

.sort_index(axis=, by=列名) 对索引排序，可根据指定列的值进行排序

.order 按值排序

.rank(ascending=, method=, axis=) 排名

.index.is_unique 检查索引值唯一性（是否有重复项）

2、约简类，可指定轴、是否排除缺失值、层次化索引分组约简。

.sum(axis=, skipna=, level=) 求和

.mean 均值

.idxmax 返回最大值索引

.cumsum 累积和

.describe统计描述汇总

.count 非nan值数量

.min 最小值

.quantile 分位数

.median 中位数

.mad 平均绝对离差

.var 方差

.std 标准差

.skew 偏度

.kurt 峰度

.cumprod 累积积

.diff

.pct_change

.tail 显示尾行，五个

.head 显示开始行，五个

.corr 求相关系数（Series和Series，或者DataFrame和DataFrame）

.cov 求协方差

.corrwith 求相关系数（DataFrame的行或列与Series或DataFrame）

.unique 得到唯一值数组

.value_counts(sort=) 求值频率，可传入False指定降序排列

.isin 判断成员资格

.dropna(how=, axis=, thresh=) 丢弃缺失数据，对DataFrame可指定丢弃方式

.fillna(inplace=，method=, limit=) 用指定值或字典填充缺失数据，可指定是否就地修改，填充方式，填充数量限制

.unstack 行索引转列索引

.stack 列索引转行索引

MultiIndex.from_arrays 用数组构建层次化索引

.swaplevel 重排层次化索引分级顺序

.sortlevel 根据单个级别的值对数据排序

.set_index(drop=) 将某一列转为行索引

.reset_index 将行索引转为列

.irow 根据整数位置选取行

.icol 根据整数位置选取列

pd.Panel 创建面板数据

.to_panel DataFrame转换为Panel

.to_frame Panel转换为DataFrame

3、数据读取

pd.read_csv(sep=, delim_whitespace=, header=,skiprows=,converters=,keep_date_col=,parse_date=,na_values=,nrows=,skip_footer=, )

最常用的csv和text文件读取方式

.to_csv 将数据写入csv

.from_csv 从csv读取数据

4、数据规整

pd.merge(on=,how=,suffixes=,left_index=,right_index=) 横向合并

.join(how=, on=, ) 按索引合并，可传入一组DataFrame

pd.concat(axis=,join=,join_axes=,keys=,names=,ignore_index=) 纵向连接，也可以传入轴进行横向连接

np.nan nan值

np.where 矢量化if-else表达，第一个为判断条件，可为布尔型数组，后面两个为值

.combine_first 用一个数据为另一个数据“打补丁”

.pivot 长格式转宽格式，指定行索引，列索引名，填充值列

.duplicated 返回布尔型Series,表示各行是否是重复行（第一次出现的值为False,再次出现为True）

.drop_duplicates(take_last=) 返回移除了重复行的DataFrame,可指定是保留第一个还是最后一个

.map 元素级转换函数，可将函数应用于Series或DataFrame某列

.replace 替换指定值，第一个参数为要被替换的值，第二个是用来替换的值，支持字典

.rename(index=, columns=,inplace=) 轴标签更新，接受字典，可就地修改

pd.cut(right=,labels=) 面元划分

pd.value_counts 值频率计算

.any 可用来过滤异常值，里面为容忍度整数

.take 按指定顺序重排序，可接受列表

np.random.permutation 产生随机重排列

pd.get_dummies(prefix=) 计算哑变量矩阵，可指定列前缀

字符串对象方法

.split 按指定值拆分字符串

.strip 修剪空白符和换行符

.join 用指定值连接字符串

.index 返回索引，找不到则引发异常

.find 返回索引，找不到返回-1

.count 返回指定子串出现次数

re.compile 编译regex对象

re.compile.findall 得到匹配regex的所有模式

pd中的方法

.str.contains 按指定模式搜索，返回布尔型数组

.str.match 按指定模式获取

.str.get 按指定模式获取

.str[] 按指定模式获取

其他疑问，京东量化群搜小馒头便可找到我。

参考书籍《利用python进行数据分析》。

下次有时间会更新常用pandas操作示例。另，决定进阶statsmodels，欢迎交流。

阅读原文：http://suo.im/3UWOOP

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：pandas panda 常用函数 Das Permutation 京东

[源码分享] 京东量化小馒头之pandas库常用函数汇总 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[源码分享] 京东量化小馒头之pandas库常用函数汇总 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群