数据挖掘工业界,R和Python到底谁用的比较多?R与python各自的优缺点
用R还是用python一直以来是一个争论,不过从近几年的发展趋势来看,python越来也受到欢迎。
这两个工具都很方便,不需要非常深厚的的编程能力,都适合用来开发算法,有大量的package可用。
但是Python入门比较简单,而R则相对比较难一些(纯个人感觉,依据每个人之前的经验,可能不同的体验)。
R做文本挖掘现在还有点弱,当然它的优点在于函数都给你写好了,你只需要知道参数的形式就行了,有时候即使参数形式不对,R也能“智能地”帮你适应。这种简单的软件适合想要专注于业务的人。
Python几乎都可以做,函数比R多,比R快。它是一门语言,R更像是一种软件,所以python更能开发出flexible的算法。
Python适合处理大量数据,而R则在这方面有很多力不从心,当然这么说的前提是对于编程基础比较一般的童鞋,对于大牛来说,多灵活运用矢量化编程的话,R的速度也不会太差。
论性能,Python介于C/C++/Java这些高级语言与R语言之间,虽然性能不及那些高级语言,但是一般日常的数据用Python基本都能实现,对于性能要求不挑剔的人来说,足够了
python你需要安装numpy,pandas,scipy,cython,statsmodels,matplotlib等一系列的程序包,还需要安装ipython交互环境,单独用python直接做计量分析统计函数是没有函数支持的;R是基于统计分析的,性能和效率上要略逊于python。R的优势在于统计学和数据计算和分析上要优越于python。
Python语言编程的代码可读性高,整体美观,属于简单粗暴性质的,短时间内少量代码可实现复杂功能;R的语法很奇怪,各种包并不遵守语法规范,导致使用起来经常感觉蛋疼;R程序最终看起来没有Python那么简洁美观。
python是machine,learning领域的人用的较多。据我所知,做marketing research, econometrics,statistics的人几乎没有用python的。
综合来看,我认为Python胜过R语言。无论是调用其他语言、连接读取数据源、对系统的操作,还是文字处理和正则表达,python优势明显。毕竟诞生背景不同,python是计算机编程语言,而R语言只是来自于统计计算。所以两者的差异还是很大的。