楼主: 齐物论pi
2614 4

[书籍介绍] 利用Python进行数据分析 (OReilly精品图书系列) [推广有奖]

  • 1关注
  • 17粉丝

讲师

55%

还不是VIP/贵宾

-

威望
0
论坛币
45128 个
通用积分
250.3655
学术水平
24 点
热心指数
42 点
信用等级
16 点
经验
47957 点
帖子
401
精华
0
在线时间
488 小时
注册时间
2016-11-23
最后登录
2023-8-14

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
这个是电子书版本,epub格式,欢迎大家下载。
这本书我看了4遍,非常好,主要介绍pandas、numpy、matplotlib、scikit-learn。

大家可来阅读 python.rar (8.64 MB, 需要: 17 个论坛币)

data数据分析.PNG




本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。同时,它也是利用Python进行科学计算的实用指南(专门针对数据密集型应用)。本书重点介绍了用于高效解决各种数据分析问题的Python语言和库。本书没有阐述如何利用Python实现具体的分析方法。


重要的Python库

考虑到那些还不太了解Python科学计算生态系统和库的读者,下面我先对各个库做一个简单的介绍。

NumPy

NumPy(Numerical Python的简称)是Python科学计算的基础包。本书大部分内容都基于NumPy以及构建于其上的库。它提供了以下功能(不限于此):

·快速高效的多维数组对象ndarray。

·用于对数组执行元素级计算以及直接对数组执行数学运算的函数。

·用于读写硬盘上基于数组的数据集的工具。

·线性代数运算、傅里叶变换,以及随机数生成。

·用于将C、C++、Fortran代码集成到Python的工具。

除了为Python提供快速的数组处理能力,NumPy在数据分析方面还有另外一个主要作用,即作为在算法之间传递数据的容器。对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多。此外,由低级语言(比如C和Fortran)编写的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作。

pandas


·线性代数运算、傅里叶变换,以及随机数生成。

·用于将C、C++、Fortran代码集成到Python的工具。

除了为Python提供快速的数组处理能力,NumPy在数据分析方面还有另外一个主要作用,即作为在算法之间传递数据的容器。对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多。此外,由低级语言(比如C和Fortran)编写的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作。

pandas


pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。本书用得最多的pandas对象是DataFrame,它是一个面向列(column-oriented)的二维表结构,且含有行标和列标:


pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能。它提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。pandas将是我在本书中使用的主要工具。

对于金融行业的用户,pandas提供了大量适用于金融数据的高性能时间序列功能和工具。事实上,我一开始就是想把pandas设计为一款适用于金融数据分析应用的工具。

对于使用R语言进行统计计算的用户,肯定不会对DataFrame这个名字感到陌生,因为它源自于R的data.frame对象。但是这两个对象并不相同。R的data.frame对象所提供的功能只是DataFrame对象所提供的功能的一个子集。虽然本书讲的是Python,但我偶尔还是会用R做对比,因为它毕竟是最流行的开源数据分析环境,而且很多读者都对它很熟悉。

pandas这个名字本身源自于panel data(面板数据,这是计量经济学中关于多维结构化数据集的一个术语)以及Python data analysis(Python数据分析)。

matplotlib

matplotlib是最流行的用于绘制数据图表的Python库。它最初由John D.Hunter(JDH)创建,目前由一个庞大的开发人员团队维护。它非常适合创建出版物上用的图表。它跟IPython(马上就会讲到)结合得很好,因而提供了一种非常好用的交互式数据绘图环境。绘制的图表也是交互式的,你可以利用绘图窗口中的工具栏放大图表中的某个区域或对整个图表进行平移浏览。

IPython

IPython是Python科学计算标准工具集的组成部分,它将其他所有的东西联系到了一起。它为交互式和探索式计算提供了一个强健而高效的环境。它是一个增强的Python shell,目的是提高编写、测试、调试Python代码的速度。它主要用于交互式数据处理和利用matplotlib对数据进行可视化处理。我在用Python编程时,经常会用到IPython,包括运行、调试和测试代码。

除标准的基于终端的IPython shell外,该项目还提供了:

·一个类似于Mathematica的HTML笔记本(通过Web浏览器连接IPython,稍后将对此进行详细介绍)。

·一个基于Qt框架的GUI控制台,其中含有绘图、多行编辑以及语法高亮显示等功能。

·用于交互式并行和分布式计算的基础架构。

我将在一章中专门讲解IPython,详细地介绍其大部分功能。强烈建议在阅读本书的过程中使用IPython。

SciPy

SciPy是一组专门解决科学计算中各种标准问题域的包的集合,主要包括下面这些包:

·scipy.integrate:数值积分例程和微分方程求解器。

·scipy.linalg:扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能。

·scipy.optimize:函数优化器(最小化器)以及根查找算法。

·scipy.signal:信号处理工具。

·scipy.sparse:稀疏矩阵和稀疏线性系统求解器。

·scipy.special:SPECFUN(这是一个实现了许多常用数学函数(如伽玛函数)的Fortran库)的包装器。

·scipy.stats:标准连续和离散概率分布(如密度函数、采样器、连续分布函数等)、各种统计检验方法,以及更好的描述统计法

·scipy.weave:利用内联C++代码加速数组计算的工具。

NumPy跟SciPy的有机结合完全可以替代MATLAB的计算功能(包括其插件工具箱)。





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:OReilly Reilly python 精品图书 数据分析 python numpy pandas matplotlib

本帖被以下文库推荐

stay hungry,stay foolish
沙发
齐物论pi 学生认证  发表于 2018-9-27 18:23:31 |只看作者 |坛友微信交流群
当书中出现“数据”时,究竟指的是什么呢?主要指的是结构化数据(structured data),这个故意含糊其辞的术语代指了所有通用格式的数据,例如:多维数组(矩阵)。

·表格型数据,其中各列可能是不同的类型(字符串、数值、日期等)。比如保存在关系型数据库中或以制表符/逗号为分隔符的文本文件中的那些数据。

·通过关键列(对于SQL用户而言,就是主键和外键)相互联系的多个表。

·间隔平均或不平均的时间序列。

这绝不是一个完整的列表。大部分数据集都能被转化为更加适合分析和建模的结构化形式,虽然有时这并不是很明显。如果不行的话,也可以将数据集的特征提取为某种结构化形式。例如,一组新闻文章可以被处理为一张词频表,而这张词频表就可以用于情感分析。

使用道具

藤椅
齐物论pi 学生认证  发表于 2018-9-27 18:23:47 |只看作者 |坛友微信交流群
本书的内容非常好,至少有一点非常好——集中火力对付特定的应用领域。市面上介绍编程的书多如牛毛,但几乎没有几本书是针对特定应用场景的。这本书对新手来说绝对是福音,因为每看完一点就可以马上将自己手上的工作直接拿来当例子练手,这种立竿见影的学习效果,绝对会增强新手的学习信心。

本书内容虽好,但由于作者是编辑界牛人,平时的工作肯定不少,写书方面的精力自然就不可能太多。加之美式英语本来就很口语化,导致原书口水话非常多,有些地方的从句跟绕口令似的。我在翻译的过程中尽量排除了一些,两次校稿的过程中又删除或大幅修改了一些废话,虽然这种“口水话”还存在不少,但至少不会对阅读造成太大影响。如果实在觉得语言不通顺,请随时发邮件给我,欢迎大家的善意指导

针对科学计算领域的Python开源库生态系统在过去10年中得到了飞速发展。2011年底,我深深地感觉到,由于缺乏集中的学习资源,刚刚接触数据分析和统计应用的Python程序员举步维艰。针对数据分析的关键项目(尤其是NumPy、matplotlib和pandas)已经很成熟了,也就是说,写一本专门介绍它们的图书貌似不会很快过时。因此,我下定决心要开始这样的一个写作项目。我在2007年刚开始用Python进行数据分析工作时就希望能够得到这样一本书。希望你也能觉得本书有用,同时也希望你能将书中介绍的那些工具高效地运用到实际工作中去。

使用道具

板凳
齐物论pi 学生认证  发表于 2018-9-27 18:25:07 |只看作者 |坛友微信交流群
如果大家在书中有什么疑问,可以加我的QQ:1582034172     一起学习一起交流

使用道具

报纸
hifinecon 发表于 2018-9-27 21:43:57 来自手机 |只看作者 |坛友微信交流群
齐物论pi 发表于 2018-9-27 18:18
这个是电子书版本,epub格式,欢迎大家下载。
这本书我看了4遍,非常好,主要介绍pandas、numpy、matplotl ...
thanks LZ for your kindness

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-23 23:11