作为一名已经从事数据分析的工作人员,想和大家分享自己在工作中如何用R进行实战操作。R软件是非常有魅力的数据分析或挖掘工具,优点一箩筐:免费、灵巧、分析方法丰富、可视化等方面,相信很多前辈都已经罗列清楚。但是还有很多人向我咨询,企业中是否也用R?企业中如何用R?
据我这么多年的观察,越来越多的企业开始关注并使用R,相关招聘信息都会列“熟练使用SAS\R软件”等字样。所以,想学习R、正在学习R的各位同学千万不要被某些看法观点而蒙蔽,其实任何工具都有它的优势与劣势,好不避讳,R的劣势“可能”就是它的处理速度、内存限制等。
对的,我用了“可能”。其实,这些困难都是可以缓解甚至避免。现在越来越多的contributors贡献了非常好用的packages,比如M Dowle等的data.table包、Danile Adler的ff、Edwin de Jonge的ffbase包,当然还有Hadley的dplyr、reshape2、ggvis包,还有Rcpp、bigmemory等等,企业中AsterR,Revolution等大数据支持,当然更要感谢飞天团队的RODPS大作。太多优秀的包可供使用,对于数据收集、整理、分析、展示等表现都非常优秀,所以在日常工作中基本上解决了我几乎所有问题,可能有人要问我,你平时面临的数据体量级是多少? “TB级”
广告说了这么多,分享一些资源(都说版主很有钱,那小版也免费分享),我是一位R语言爱好者,以上是个人的一些想法,各位有不同看法或者观点,可以直接跟帖讨论!!
PS:针对部分坛友提到的即将上线的《Dealing With Memory Limits and Working With Large Data Sets in R》,以及《Advanced R》、《Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining by Simon Munzert》以后也会及时更新,敬请期待。