楼主: 水天一色DIY
11976 56

[数据挖掘理论与案例] 大数据实战利器-R   [推广有奖]

  • 2关注
  • 28粉丝

VIP

副教授

85%

还不是VIP/贵宾

-

威望
1
论坛币
50270 个
通用积分
1.1456
学术水平
66 点
热心指数
76 点
信用等级
48 点
经验
20136 点
帖子
590
精华
1
在线时间
708 小时
注册时间
2010-9-18
最后登录
2023-3-16

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
作为一名已经从事数据分析的工作人员,想和大家分享自己在工作中如何用R进行实战操作。R软件是非常有魅力的数据分析或挖掘工具,优点一箩筐:免费、灵巧、分析方法丰富、可视化等方面,相信很多前辈都已经罗列清楚。但是还有很多人向我咨询,企业中是否也用R?企业中如何用R?
    据我这么多年的观察,越来越多的企业开始关注并使用R,相关招聘信息都会列“熟练使用SAS\R软件”等字样。所以,想学习R、正在学习R的各位同学千万不要被某些看法观点而蒙蔽,其实任何工具都有它的优势与劣势,好不避讳,R的劣势“可能”就是它的处理速度、内存限制等。
    对的,我用了“可能”。其实,这些困难都是可以缓解甚至避免。现在越来越多的contributors贡献了非常好用的packages,比如M Dowle等的data.table包、Danile Adler的ff、Edwin de Jonge的ffbase包,当然还有Hadley的dplyr、reshape2、ggvis包,还有Rcpp、bigmemory等等,企业中AsterR,Revolution等大数据支持,当然更要感谢飞天团队的RODPS大作。太多优秀的包可供使用,对于数据收集、整理、分析、展示等表现都非常优秀,所以在日常工作中基本上解决了我几乎所有问题,可能有人要问我,你平时面临的数据体量级是多少? “TB级”
    广告说了这么多,分享一些资源(都说版主很有钱,那小版也免费分享),我是一位R语言爱好者,以上是个人的一些想法,各位有不同看法或者观点,可以直接跟帖讨论!!
    PS:针对部分坛友提到的即将上线的《Dealing With Memory Limits and Working With Large Data Sets in R》,以及《Advanced R》、《Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining by Simon Munzert》以后也会及时更新,敬请期待。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据 Text Mining Collection Revolution Automated 招聘信息 工作人员 如何 软件

Naive Bayes Clasification.pdf

192.78 KB

Text mining with R.pdf

326.33 KB

ParallelO.pdf

206.74 KB

Introducing Data Science with Rattle and R.pdf

2.78 MB

Dealing with Big Data (R).pdf

208.79 KB

DataMiningL.pdf

711.25 KB

Data Science with R.pdf

17.95 MB

Cluster analysis with R.pdf

430.18 KB

Beyond Rattle into R.pdf

181.75 KB

association rules analysis with R.pdf

625.79 KB

Taking R to the Limit.pdf

670.77 KB

已有 4 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
crystal8832 + 36 + 3 + 3 + 3 辛苦了!
观世鹰 + 40 + 20 + 2 + 2 加油哦
op899 + 1 + 1 + 1 精彩帖子
Mr.Finance + 1 + 1 + 1 精彩帖子

总评分: 经验 + 40  论坛币 + 56  学术水平 + 7  热心指数 + 7  信用等级 + 5   查看全部评分

本帖被以下文库推荐

沙发
wujun0329 发表于 2014-7-26 21:01:53 |只看作者 |坛友微信交流群
谢谢分享

使用道具

藤椅
LIXUANHANK 学生认证  发表于 2014-7-27 12:40:40 |只看作者 |坛友微信交流群
谢谢分享!!

使用道具

板凳
wnh728 发表于 2014-7-27 12:57:26 |只看作者 |坛友微信交流群
大数据实战利器,谢谢楼主资源共享!

使用道具

报纸
Crsky7 发表于 2014-7-27 13:00:00 |只看作者 |坛友微信交流群
R的分析功能和扩展性确实很强大,可惜由于它的处理速度、内存限制等劣势,很难作为大数据实战工具。业界一般都倾向于采用SAS,他们追求的是高效和专业。在大数据领域,目前SAS+Hadoop是最强组合。

使用道具

地板
Crsky7 发表于 2014-7-27 13:09:03 |只看作者 |坛友微信交流群
不过在我眼里,SAS更像一个分析软件,而非编程软件,用其编写算法很不方便;而R则是一个典型的统计编程软件,所以做方法论、算法研究的那些同事更倾向于用R,因为R更自由灵活。

使用道具

7
Crsky7 发表于 2014-7-27 13:11:33 |只看作者 |坛友微信交流群
已加精,欢迎以后常来分享好资料~

使用道具

8
水天一色DIY 在职认证  发表于 2014-7-27 14:46:36 |只看作者 |坛友微信交流群
Crsky7 发表于 2014-7-27 13:11
已加精,欢迎以后常来分享好资料~
我很赞成Crsky7大部分观点,其实R是一个不断进步的工具,在大数据实战中已经越来越重要,这是毋庸置疑。话说回来,没有工具绝对的好与坏,无论是SAS还是R,只要运用熟练,都会给自己带来方便。

使用道具

9
feconomist_mlj 发表于 2014-7-27 15:16:23 |只看作者 |坛友微信交流群
谢谢分享~

使用道具

10
xiaodingd 学生认证  发表于 2014-7-27 15:24:16 |只看作者 |坛友微信交流群
顶一下               

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 01:20