楼主: complicated
3728 14

[实际应用] 【吐槽】R的数据处理 [推广有奖]

  • 3关注
  • 18粉丝

副教授

65%

还不是VIP/贵宾

-

威望
0
论坛币
6463 个
通用积分
3868.8146
学术水平
88 点
热心指数
86 点
信用等级
58 点
经验
21961 点
帖子
507
精华
0
在线时间
1425 小时
注册时间
2007-6-16
最后登录
2024-4-20

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
一直感觉R在数据处理(ETL)这部分很凌乱,原生的函数里,tapply好像一直不支持 y~x的函数形式,aggregate又不支持多function。
参数的方式也不统一,每次都要查帮助。reshape2倒是利器,不过如其包名,基本上只管reshape,别的事儿都不管。
plyr不太熟呢,数据量大了还行不行?

还有啥包?

觉得各本讲分析的书里对数据处理这方面都没太展开,只是基于分析案例讲的。
哪位能推荐一本专门讲数据处理的世界观、方法论、方方面面的书啊?
多谢!



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据处理 Aggregate function reshape Shape function

已有 1 人评分经验 学术水平 收起 理由
Lisrelchen + 100 + 5 精彩帖子

总评分: 经验 + 100  学术水平 + 5   查看全部评分

密码被盗??
沙发
liu7788414 在职认证  发表于 2015-3-24 14:10:47 |只看作者 |坛友微信交流群
data.table包,sqldf包都是帮助整理数据的,aggregate支持多个function有什么意义吗?  为什么不能你写一个函数,然后调用多个函数?
已有 1 人评分经验 收起 理由
李会超 + 20 观点有启发

总评分: 经验 + 20   查看全部评分

使用道具

藤椅
complicated 在职认证  发表于 2015-3-24 14:12:22 |只看作者 |坛友微信交流群
liu7788414 发表于 2015-3-24 14:10
data.table包,sqldf包都是帮助整理数据的,aggregate支持多个function有什么意义吗?  为什么不能你写一个 ...
自定义函数啊,好建议,多谢多谢!

使用道具

板凳
davil2000 发表于 2015-3-24 14:39:27 |只看作者 |坛友微信交流群
ETL任务最适于SAS。凭借2万多个算法包,R的江湖地位可以维持。未来PYTHON会取代R。

使用道具

报纸
mosessa 发表于 2015-3-24 22:58:10 |只看作者 |坛友微信交流群
davil2000 发表于 2015-3-24 14:39
ETL任务最适于SAS。凭借2万多个算法包,R的江湖地位可以维持。未来PYTHON会取代R。
学习了

使用道具

地板
complicated 在职认证  发表于 2015-3-25 09:33:21 |只看作者 |坛友微信交流群
davil2000 发表于 2015-3-24 14:39
ETL任务最适于SAS。凭借2万多个算法包,R的江湖地位可以维持。未来PYTHON会取代R。
谢谢大牛~我准备面向未来了

使用道具

7
ziyenano 发表于 2015-3-26 14:21:46 |只看作者 |坛友微信交流群
貌似我很少用R处理数据,毕竟用SAS做这个,比啥都顺手,都是处理好了导入到R中,最多再整合整合,再加上有的Linux R不支持中文,直接倒进去就是一堆乱码,简直疯了。
另外又滚回学校读书,感觉R依然是学院派的首选,Python好像还没见影子,SAS在学院里想想也不会太受青睐,最近在研究the elements of statistical learning,算是统计学习的扛鼎之作,书中都是用R做的模拟,偶然发现几位大牛作者竟然就是R里面glmnet包的作者。
再多讲点废话,R最坑的莫过于内存管理,copy-on-modify,搞得循环的时候效率就是渣,不扯换成矩阵、向量运算,能转早转了(还有很多问题你就真的只有写循环啊!);Python即使没致力于统计这块的时候,也很出名了,胶水语言,很受程序员的欢迎,到底是搞计算机的人设计的语言,底层设计的是要比R更合理。
不过话说回来,要是没有统计大牛致力于Python这块的开发,也是白搭,毕竟是要搞统计嘛,再扒扒看,貌似很多算法核心都是用C、Fortran啥写的,转到Python怀抱,好像也不难。
除了R和Python,现在还有一个开源的octave,基本无差异的可以运行matlab,也是挺“奇葩”的。
不过对我们来说,心态要好一点,实在不行,再学点Python就是了。
PS:最近用ggolot2用的很开心呐,色彩斑斓、五彩缤纷、理念新颖。恩,确实要比SAS的sgplot好用

使用道具

8
-Batistuta- 发表于 2015-3-26 17:01:02 |只看作者 |坛友微信交流群
《data manipulation with R》,springer 2008年出版那本,数据操作的经典,中文、英文版都有的。另外补充一下,R的一大特点是数据格式灵活多变,不同R包开发者的习惯不同,所用的数据格式和函数的参数形式就会不同,不可能用一本书讲全的

使用道具

9
complicated 在职认证  发表于 2015-3-26 19:23:29 |只看作者 |坛友微信交流群
ziyenano 发表于 2015-3-26 14:21
貌似我很少用R处理数据,毕竟用SAS做这个,比啥都顺手,都是处理好了导入到R中,最多再整合整合,再加上有的 ...
感谢感谢!很受教啊!
支持中文这件事确实很崩溃,各种投机取巧各种绕行,连rstudio都没打算好好搞中文吧~
我现在还好,R处理不了的在hive上先折腾去,拿到本地一个小而美的数据集就可以随便玩了。不指望R的数据处理能力有多强了,只是建模之类的代码简洁,写起来效率高,这也要感谢统计学大牛们持续贡献各种算法包啊!
octave好像Andrew Ng在讲机器学习的时候就用这玩意,新来的还有一个julia,眼花啊。。。没逼到份上就不学了。
ggplot2确实很棒,如果说r本身那个plot族画出的玩意是给自己看的话,ggplot2可以给客户看了:)

使用道具

10
complicated 在职认证  发表于 2015-3-26 19:32:14 |只看作者 |坛友微信交流群
-Batistuta- 发表于 2015-3-26 17:01
《data manipulation with R》,springer 2008年出版那本,数据操作的经典,中文、英文版都有的。另外补充一 ...
谢谢推荐,那本书确实有帮助,很多细节讲的很清楚(市面上R的书我差不多都买了。。。)
数据处理这件事儿确实涵盖太多内容,只是每次碰到的问题似乎相似,又似乎有微妙的差别,
自己一直没能梳理的很清楚,也没看到过系统全面介绍这方面的内容,可能对别人来说并不那么要紧吧~

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-22 09:55