楼主: 菊花冰糖水
1006 1

[学习分享] 关于 SparkR的问题 [推广有奖]

  • 2关注
  • 3粉丝

硕士生

67%

还不是VIP/贵宾

-

威望
0
论坛币
2985 个
通用积分
261.6401
学术水平
14 点
热心指数
22 点
信用等级
8 点
经验
6600 点
帖子
128
精华
0
在线时间
207 小时
注册时间
2015-7-25
最后登录
2025-3-23

楼主
菊花冰糖水 发表于 2018-2-6 11:14:39 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
最近想尝试使用 SparkR来处理大数据,阅读了官方文档后还是疑惑很多,希望论坛大神们帮忙解惑!

1. SparkR读取 HIVE 表之后, 是拉取到本地内存里么?之前我用 RJDBC 取一些 HIVE 的表都是拉取在内存中,并在内存中进行的运算和处理。请问 SparkR的机制也是如此么?
2. SparkR 的 lapply 和 dapply 的区别是什么?
3. SparkR可以应用其他 package 的函数或者方法么?例如 stringr 的 str_ 的各种函数方法。
4. 需要占用大量本地内存呢, 还是在集群上运行呢?

很多问题很小白, 也请大神们多多赐教!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Spark Park SPAR SPA package

沙发
920978196 发表于 2018-2-7 17:08:25
Spark本来就是基于内存的计算引擎.
你先看看官方文档吧.还有spark的基本框架.

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-4 23:54