以Python中的pandas库为主线,介绍各类数据处理与分析方法。共包含13章,第一部分介绍NumPy和pandas的基本内容;第二部分介绍pandas库中的4类操作,包括索引、分组、变形和连接;第三部分介绍基于pandas库的4类数据,包括缺失数据、文本数据、分类数据和时间序列数据,并介绍这4类数据的处理方法;第四部分介绍数据观测、特征工程和性能优化的相关内容。
《pandas数据处理与分析》PDF+数据集代码习题
《pandas数据处理与分析》PDF,324页,文字可复制,耿远昊编写,配套数据集、习题答案、源代码。
下载: https://pan.baidu.com/s/130ifUztEa-qGNipgMIqfWw?pwd=mhyb
提取码: mhyb
第一部分包含Python基础、NumPy基础和pandas基础。其中,Python基础回顾推导式、匿名函数和打包函数的概念与应用;NumPy基础包含常见的数组操作,如构造、变形、切片、广播机制以及常用函数。 pandas基础包含文件的读取和写入、基本数据结构、常用基本函数以及窗口对象。
第二部分介绍索引,分组,变形和连接这4类操作,其中,第3章涵盖单级索引,多级索引和堂用索引方法:第4章介绍分组模式及其对象的基本概令,聚合函数的使用方法,亦换函数和过滤函数的用法,以及跨列分组的相关内容:第5章讨论长宽表的变形和其他变形方法:第6章涉及关系连接的基本概念,常用关系连接函数和其他连接函数等。
第三部分介绍缺失数据、文本数据、分类数据和时间序列数据这4类数据。其中,第7章涉及缺失数据的四大操作——统计、删除、填充、插值,以及对Nullable类型的详细解读;第8章涵盖str对象、正则表达式基础、文本处理的5类操作——拆分、合并、匹配、替换、提取,以及常用字符串函数;第9章涉及cat对象、有序类别以及区间类别:第10章涵盖时间戳、时间差、日期偏置和时间序列操作的内容。
第四部分包含数据观测、特征工程和性能优化的内容。第11章介绍可视化的基本方法以及数据观测的一般思路。第12章介绍单特征构造、多特征构造和特征选择的常用方法。第13章介绍pandas代码编写的注意事项,基于多进程的加速方法,基于Cython的加速方法以及基于Numba的加速方法。


雷达卡


京公网安备 11010802022788号







