楼主: hsj987
1144 0

[行业动态] 史上最实用的大数据实施系统计划! [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

大专生

56%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0.0001
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
340 点
帖子
28
精华
0
在线时间
7 小时
注册时间
2016-2-22
最后登录
2016-3-2

楼主
hsj987 发表于 2016-2-25 16:18:26 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币




因此在实际应用上,大数据的实际实施系统可以有很多种方式。通过你的预算和思考规划,你将能使用最便捷、最实用、又最低成本的大数据实施系统。


1. 你的数据有多大?


3. 你想要怎样展现数据?


下面是基于对前两个问题的不同回答,推荐采用的一些工具。


这个是批处理(batch processing)适用的场景。一个可行的方案是:AWS S3 + Apache Spark。你可以执行Spark任务,读取S3中的数据,然后将计算结果存成CSV文件,最后用Excel分析或者可视化结果。


这个通常是交互式查询适用的场景。一个可行的方案是:AWS Redshift + Tableau。 Redshift提供低延迟查询处理,Tableau提供很好的数据可视化功能,二者结合起来可以轻松的分析大量数据,只是需要一定的成本。需要提醒的是,你最好提前规划好 Redshift集群的规模和容量,减少随机动态调整, 因为在Redshift中,扩展集群(scale up or scale out)是个比较痛苦的过程。


这个场景适用于预算有限的情况,或者你不想在AWS Redshift和Tableau上投入太多。你将需要对大数据比较了解的开发人员,从而可以自己搭建企业内部的大数据集群。一个可行的解决方案是:Apache Cassandra + Presto Query Engine + H2 Console (from H2 Database Engine)。


(来源:大数据魔镜博客)

更多内容关注CDA数据分析师
GIF二维码--定稿.gif

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据 Apache Spark Processing CDA数据分析师 database 实际应用 容忍度 计划 成本 特色

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-3 21:51