商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式的增长。无论从事产品研发的工程师,还是从事产品推广的市场人员、人力资源的财务会计人员,都需要掌握数据分析技术,否则很有可能被人工智能时代替代。
“工欲善其事,必先利其器”。当前,R和Python等开源软件方兴未艾,但是这类软件学习曲线缓慢,使很多初学者的热情在进入数据分析的核心领域之前就消失殆尽。而商业数据分析的真正目的是为了解决业务分析需求,构建稳健的数据挖掘模型。
R是一种用于分析数据的领域特定语言。如果你之前未接触过专业的分析软件,那么R是不错的选择。R偏向于统计分析、计量经济学和统计内容。R不仅在学术研究中拥有广泛的用户基础,而且和Oracle、SQL Server等数据库软件结合使其不再受内存限制,从而在商业上有了一定的用武之地。而且R和Hadoop、Spark等大数据分析平台也可以自由链接。
为什么要使用R语言?
1. 物美价廉——作图颜值高,且完全免费
说它物美,主要是指它卓越的作图功能。
可以说,点图线图柱状图直方图,R语言样样精通,而且设计感满满,绝对可以在这个看脸的世界里独挡一面。比如你可以画这样的图:
如果对R中基本图形稍作修饰,你还能画成这样:
还能这样(上海地区工商银行分布核密度图):
2. 兼收并蓄——算法覆盖广,扩展易
作为统计分析工具,它几乎覆盖整个统计领域的前沿算法。
从火到根本停不下来的的神经网络(就是那只下围棋的机器狗脑袋里的东西),到经典了一百多年还熠熠生辉的基础回归,数千个R包,上万种算法,你都能找到可直接调用的函数实现。
3. 软件扩展易
作为一款软件系统,它有极方便的扩展性。你的数据原来存在Oracle 里?没问题,轻松导入;你的数据在MySQL 里?没问题, 照样解决。文本文件、数据库管理系统,统计软件,专门的数据仓库都可兼容。它同样可以将数据输出并写入到这些系统中。
同时它还可以轻松于各种语言完成互调,比如大数据系统Hadoop,商业软件SPSS、SPSS Modeler,你曾经爱的python,都可无缝对接。
4. 集千万力量于一身——强大的社区支持
作为一个开源软件,R背后有一个强大的社区和大量的开放源码支持,获取帮助非常容易。
比如国外比较活跃的社区有GitHub和 Stack Overflow等,通常R包的开发者会先将代码放到GitHub,接受世界各地的使用者提出问题,修改代码等操作,等代码成熟后再放到CRAN上发布;
而Stack Overflow 则是一个优质的IT技术问答网站,当你在Google上搜索R问题时,通常会看到该网站的回答会排在首位,足可见该网站的搜索热度有多高!