| 所在主题: | |
| 文件名: DataMiningL.pdf | |
| 资料下载链接地址: https://bbs.pinggu.org/a-1597283.html | |
| 附件大小: | |
|
作为一名已经从事数据分析的工作人员,想和大家分享自己在工作中如何用R进行实战操作。R软件是非常有魅力的数据分析或挖掘工具,优点一箩筐:免费、灵巧、分析方法丰富、可视化等方面,相信很多前辈都已经罗列清楚。但是还有很多人向我咨询,企业中是否也用R?企业中如何用R?
据我这么多年的观察,越来越多的企业开始关注并使用R,相关招聘信息都会列“熟练使用SAS\R软件”等字样。所以,想学习R、正在学习R的各位同学千万不要被某些看法观点而蒙蔽,其实任何工具都有它的优势与劣势,好不避讳,R的劣势“可能”就是它的处理速度、内存限制等。 对的,我用了“可能”。其实,这些困难都是可以缓解甚至避免。现在越来越多的contributors贡献了非常好用的packages,比如M Dowle等的data.table包、Danile Adler的ff、Edwin de Jonge的ffbase包,当然还有Hadley的dplyr、reshape2、ggvis包,还有Rcpp、bigmemory等等,企业中AsterR,Revolution等大数据支持,当然更要感谢飞天团队的RODPS大作。太多优秀的包可供使用,对于数据收集、整理、分析、展示等表现都非常优秀,所以在日常工作中基本上解决了我几乎所有问题,可能有人要问我,你平时面临的数据体量级是多少? “TB级” 广告说了这么多,分享一些资源(都说版主很有钱,那小版也免费分享),我是一位R语言爱好者,以上是个人的一些想法,各位有不同看法或者观点,可以直接跟帖讨论!! PS:针对部分坛友提到的即将上线的《Dealing With Memory Limits and Working With Large Data Sets in R》,以及《Advanced R》、《Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining by Simon Munzert》以后也会及时更新,敬请期待。 |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明