Python与R相比速度要快。Python可以直接处理上G的数据;R不行,R分析数据时需要先通过数据库把大数据转化为小数据(通过groupby)才能交给R做分析,因此R不可能直接分析行为详单,只能分析统计结果。所以有人说:Python=R+SQL/Hive,并不是没有道理的。
Python的一个最明显的优势在于其胶水语言的特性,很多书里也都会提到这一点,一些底层用C写的算法封装在Python包里后性能非常高效(Python的数据挖掘包Orange canve 中的决策树分析50万用户10秒出结果,用R几个小时也出不来,8G内存全部占满)。
但是,凡事都不,如果R矢量化编程做得好的话(有点小难度),会使R的速度和程序的长度都有显著性提升。
R的优势在于有包罗万象的统计函数可以调用,特别是在时间序列分析方面,无论是经典还是前沿的方法都有相应的包直接使用。
相比之下,Python之前在这方面贫乏不少。但是,现在Python有了pandas。pandas提供了一组标准的时间序列处理工具和数据算法。因此,你可以高效处理非常大的时间序列,轻松地进行切片/切块、聚合、对定期
/不定期的时间序列进行重采样等。可能你已经猜到了,这些工具中大部分都对金融和经济数据尤为有用,但你当然也可以用它们来分析服务器日志数据。于是,近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大替代方案。
做过几个实验:
1. 用python实现了一个统计方法,其中用到了ctypes,multiprocess。
之后一个项目要做方法比较,又用回R,发现一些bioconductor上的包已经默认用parallel了。(但那个包还是很慢,一下子把所有线程都用掉了,导致整个电脑使用不能,看网页非常卡~)
2. 用python pandas做了一些数据整理工作,类似数据库,两三个表来回查、匹配。感觉还是很方便的。虽然这些工作R也能做,但估计会慢点,毕竟几十万行的条目了。
3. 用python matplotlib画图。pyplot作图的方式和R差异很大,R是一条命令画点东西,pylot是准备好了以后一起出来。pyplot的颜色选择有点尴尬,默认颜色比较少,之后可用html的颜色,但是名字太长了~。pyplot
的legend比R 好用多了,算是半自动化了。pyplot画出来后可以自由拉升缩放,然后再保存为图片,这点比R好用。
总的来说Python是一套比较平衡的语言,各方面都可以,无论是对其他语言的调用,和数据源的连接、读取,对系统的操作,还是正则表达和文字处理,Python都有着明显优势。
而R是在统计方面比较突出。但是数据分析其实不仅仅是统计,前期的数据收集,数据处理,数据抽样,数据聚类,以及比较复杂的数据挖掘算法,数据建模等等这些任务,只要是100M以上的数据,R都很难胜任,但是Python却基本胜任。
结合其在通用编程方面的强大实力,我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。
但世上本没有的软件或程序,也鲜有人能把单一语言挖掘运用到。尤其是很多人早先学了R,现在完全不用又舍不得,所以对于想要学以致用的人来说,如果能把R和Python相结合,就更好不过了,很早看过一篇文章——让R与Python共舞,咱们坛子里有原帖,就不多说了,看完会有更多启发。
五一北京基于Python的数据分析现场班
三天的课程力图结合不同案例讲授数据分析领域基本知识。
这门课使用python作为载体, 结合理论知识进行实际操作, 使学生不仅理解数据分析的基本方法, 同时掌握使用python的基本实际计算技能。
培训时间:2018年4月29-5月1日 (三天)
培训地点:北京市海淀区丹龙大厦附近
授课安排:上午9:00至12:00; 下午1:30至4:30; 答疑
培训费用:3000元 / 2600元 (仅限全日制本科生及硕士研究生优惠价);食宿自理
我要报名
Python讲师介绍:
张忠元, 2008年在中科院数学与系统科学研究院获理学博士学位,现任中央财经大学统计学院教授,博士生导师,也是中国计算机学会高级会员、果壳网科学顾问。主业是数据分析, 尤其是复杂网络分析,主要讲授回归分析、运筹学、数学分析等课程。
主要研究兴趣在复杂网络分析和数据挖掘. 在Data Mining and Knowledge Discovery, Physical Review E, EPL, Knowledge and Information Systems, Scientific Reports, 中国科学等国内外著名期刊上发表学术论文十余篇。
爱思唯尔杰出审稿人, 担任Data Mining and Knowledge Discovery, Physica A, Management Science等著名期刊的匿名审稿人。
Python课程导引:
近年来公众越来越关注大数据和数据分析,随着互联网和人工智能的快速发展,许多问题都可以通过数据分析加以研究, 为决策提供更坚实的依据.
本次三天的课程力图结合不同案例讲授数据分析领域基本知识.
这门课使用Python作为载体,结合理论知识进行实际操作,使学生不仅理解数据分析的基本方法,同时掌握使用Python的基本实际计算技能.
在内容的安排上,我们遵循由浅入深,循序渐进的思路,结合实际应用展开讲解.
内容包括python的基本用法、有监督学习、无监督学习、关联规则、特征工程、推荐系统、时间序列分析、孤立点探测、回归和方差分析、复杂网络分析和数据可视化.
Python课程大纲:
第1讲(3小时)
Python编程基础知识, 包括基本数据类型, 基本编程结构, 函数, 脚本文件, 数据分析的常用模块.
第2讲(3小时)
有监督学习, 包括kNN方法, 支持向量机, 随机森林和神经网络.
无监督学习, 包括kmeans, 谱聚类, DBSCAN, 非负矩阵分解和双聚类.
关联规则.
第3讲(3小时)
特征工程,包括特征选择和特征提取.
推荐系统.
时间序列分析.
孤立点探测.
第4讲(3小时)
统计学的基本思想和常见误用.
描述性统计.
回归和方差分析.
非参数统计.
数据可视化.
第5讲(3小时)
复杂网络分析,包括复杂网络的建模、复杂网络的拓扑结构分析和复杂网络的功能分析.
第6讲(3小时)
案例:通过对包括美国肥胖数据分析、信用卡欺诈数据分析、英超赛季表现分析和脸书社交数据分析等至少四个案例的讲解综合展示数据分析方法的使用.
优惠:
现场班老学员9折优惠;
同一单位3人以上同时报名9折优惠;
折扣优惠不叠加。
报名流程:
1:点击“现场报名”,网上填写信息提交;
2:给予反馈,确认报名信息;
3:进入结算中心,通过订单支付;
4:开班前一周发送课程电子版讲义,软件准备及交通住宿指南。
联系方式:
魏老师
QQ:1143703950
Tel:010-68478566
Mail:vip@pinggu.org