楼主: 资料狂人
18559 15

[学科前沿] Python做数据分析-简洁、易读、强大 [推广有奖]

运营管理员

巨擘

0%

还不是VIP/贵宾

-

威望
9
论坛币
974887518 个
通用积分
41214.3979
学术水平
4617 点
热心指数
3402 点
信用等级
3620 点
经验
636515 点
帖子
9616
精华
140
在线时间
18202 小时
注册时间
2010-5-1
最后登录
2024-4-23

初级热心勋章 初级学术勋章 中级学术勋章 中级热心勋章 初级信用勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级信用勋章 特级学术勋章

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

使用过Python的用户都会被其简洁、易读、强大的库所折服,其pythonic语言特性,对人极其友好,可以说,一个完全不懂编程语言的人,看懂python语言也不是难事。


在数据分析和交互、探索性计算以及数据可视化等方面,相对于R、MATLAB、SAS、Stata等工具,Python都有其优势。近年来,由于Python库的不断发展(如pandas),使其在数据挖掘领域崭露头角。结合其在通用编程方面的强大实力,我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。


由于python是一种解释性语言,大部分编译型语言都要比python代码运行速度快,有些同学就因此鄙视python。但是python是一门高级语言,其生产效率更高,时间通常比CPU的时间值钱,因此为了权衡利弊,考虑用python是值得的。


Python强大的计算能力依赖于其丰富而强大的库:

Numpy

Numerical Python的简称,是Python科学计算的基础包。其功能:

1. 快速高效的多维数组对象ndarray。

2. 用于对数组执行元素级计算以及直接对数组执行数学运算的函数。

3. 线性代数运算、傅里叶变换,以及随机数生成。

4. 用于将C、C++、Fortran代码集成到Python的工具。

除了为Python提供快速的数组处理能力,NumPy在数据分析方面还有另外一个主要作用,即作为在算法之间传递数据的容器。对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多。此外,由低级语言(比如C和Fortran)编写的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作。


SciPy

是一组专门解决科学计算中各种标准问题域的包的集合,主要包括下面这些包:

1. scipy.integrate:数值积分例程和微分方程求解器。

2. scipy.linalg:扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能。

3. scipy.optimize:函数优化器(最小化器)以及根查找算法。

4. scipy.signal:信号处理工具。

5. scipy.sparse:稀疏矩阵和稀疏线性系统求解器。

6. scipy.special:SPECFUN(这是一个实现了许多常用数学函数(如伽玛函数)的Fortran库)的包装器。

7. scipy.stats:标准连续和离散概率分布(如密度函数、采样器、连续分布函数等)、各种统计检验方法,以及更好的描述统计法

8. scipy.weave:利用内联C++代码加速数组计算的工具。

注:NumPy跟SciPy的有机结合完全可以替代MATLAB的计算功能(包括其插件工具箱)。


SymPy

是python的数学符号计算库,用它可以进行数学表达式的符号推导和演算。


pandas

提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能。它提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。

对于使用R语言进行统计计算的用户,肯定不会对DataFrame这个名字感到陌生,因为它源自于R的data.frame对象。但是这两个对象并不相同。R的data.frame对象所提供的功能只是DataFrame对象所提供的功能的一个子集。也就是说pandas的DataFrame功能比R的data.frame功能更强大。


matplotlib

是流行的用于绘制数据图表的Python库。它最初由John D. Hunter(JDH)创建,目前由一个庞大的开发人员团队维护。它非常适合创建出版物上用的图表。它跟IPython(马上就会讲到)结合得很好,因而提供了一种非常好用的交互式数据绘图环境。绘制的图表也是交互式的,你可以利用绘图窗口中的工具栏放大图表中的某个区域或对整个图表进行平移浏览。


TVTK

是python数据三维可视化库,是一套功能十分强大的三维数据可视化库,它提供了Python风格的API,并支持Trait属性(由于Python是动态编程语言,其变量没有类型,这种灵活性有助于快速开发,但是也有缺点。而Trait库可以为对象的属性添加检校功能,从而提高程序的可读性,降低出错率。) 和NumPy数组。此库非常庞大,因此开发公司提供了一个查询文档,用户可以通过下面语句运行它:

>>> from enthought.tvtk.toolsimporttvtk_doc

>>> tvtk_doc.main()


Scikit-Learn

是基于python的机器学习库,建立在NumPy、SciPy和matplotlib基础上,操作简单、高效的数据挖掘和数据分析。其文档、实例都比较齐全。


五一北京基于Python的数据分析现场班

三天的课程力图结合不同案例讲授数据分析领域基本知识。

这门课使用python作为载体, 结合理论知识进行实际操作, 使学生不仅理解数据分析的基本方法, 同时掌握使用python的基本实际计算技能。

培训时间2018年4月29-5月1日 (三天)
培训地点北京市海淀区丹龙大厦附近
授课安排上午9:00至12:00; 下午1:30至4:30; 答疑
培训费用3000元 / 2600元 (仅限全日制本科生及硕士研究生优惠价);食宿自理

我要报名

Python讲师介绍:

张忠元, 2008年在中科院数学与系统科学研究院获理学博士学位,现任中央财经大学统计学院教授,博士生导师,也是中国计算机学会高级会员、果壳网科学顾问。主业是数据分析, 尤其是复杂网络分析,主要讲授回归分析、运筹学、数学分析等课程。
主要研究兴趣在复杂网络分析和数据挖掘. 在Data Mining and Knowledge Discovery, Physical Review E, EPL, Knowledge and Information Systems, Scientific Reports, 中国科学等国内外著名期刊上发表学术论文十余篇。
爱思唯尔杰出审稿人, 担任Data Mining and Knowledge Discovery, Physica A, Management Science等著名期刊的匿名审稿人。


Python课程导引:

近年来公众越来越关注大数据和数据分析,随着互联网和人工智能的快速发展,许多问题都可以通过数据分析加以研究, 为决策提供更坚实的依据.

本次三天的课程力图结合不同案例讲授数据分析领域基本知识.

这门课使用Python作为载体,结合理论知识进行实际操作,使学生不仅理解数据分析的基本方法,同时掌握使用Python的基本实际计算技能.   

在内容的安排上,我们遵循由浅入深,循序渐进的思路,结合实际应用展开讲解.

内容包括python的基本用法、有监督学习、无监督学习、关联规则、特征工程、推荐系统、时间序列分析、孤立点探测、回归和方差分析、复杂网络分析和数据可视化.  


优惠:

现场班老学员9折优惠;
同一单位3人以上同时报名9折优惠;
折扣优惠不叠加。


报名流程:
1:点击“我要报名”,网上填写信息提交;
2:给予反馈,确认报名信息;
3:进入结算中心,通过订单支付;
4:开课前一周发送课程电子版讲义,软件准备及交通住宿指南。


联系方式:

魏老师

QQ:1143703950 点击这里给我发消息

Tel: 010-68478566

Mail:vip@pinggu.org

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝




沙发
资料狂人 在职认证  发表于 2017-10-12 09:12:25 |只看作者 |坛友微信交流群
Python课程大纲:

第1讲(3小时)

Python编程基础知识, 包括基本数据类型, 基本编程结构, 函数, 脚本文件, 数据分析的常用模块.


第2讲(3小时)

有监督学习, 包括kNN方法, 支持向量机, 随机森林和神经网络.

无监督学习, 包括kmeans, 谱聚类, DBSCAN, 非负矩阵分解和双聚类.

关联规则.


第3讲(3小时)

特征工程,包括特征选择和特征提取.

推荐系统.

时间序列分析.

孤立点探测.


第4讲(3小时)

统计学的基本思想和常见误用.

描述性统计.

回归和方差分析.

非参数统计.

数据可视化.


第5讲(3小时)

复杂网络分析,包括复杂网络的建模、复杂网络的拓扑结构分析和复杂网络的功能分析.


第6讲(3小时)

案例:通过对包括美国肥胖数据分析、信用卡欺诈数据分析、英超赛季表现分析和脸书社交数据分析等至少四个案例的讲解综合展示数据分析方法的使用.



使用道具

藤椅
资料狂人 在职认证  发表于 2017-10-12 09:14:59 |只看作者 |坛友微信交流群
欢迎大家报名参加

使用道具

板凳
ccmchy 在职认证  企业认证  发表于 2017-10-12 10:36:30 |只看作者 |坛友微信交流群
谢谢分享

使用道具

报纸
warking 发表于 2017-10-12 12:54:16 |只看作者 |坛友微信交流群
谢谢分享

使用道具

地板
皙华 发表于 2017-10-12 14:27:51 |只看作者 |坛友微信交流群
真好!谢谢!

使用道具

7
aibieli731001 发表于 2017-10-12 15:01:42 |只看作者 |坛友微信交流群
多谢楼主提供资讯

使用道具

8
有个人1961 发表于 2017-10-12 15:28:08 |只看作者 |坛友微信交流群
学python好还是r好?

使用道具

9
studyalert 学生认证  发表于 2017-10-12 19:54:51 |只看作者 |坛友微信交流群
Good content. Thanks for sharing.

使用道具

10
shifeng758 发表于 2017-10-12 21:50:35 |只看作者 |坛友微信交流群
看看快快快快快快快快快快快

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-24 03:43