楼主: 698348
2268 2

[Hadoop] Hadoop是低成本的大数据解决方案? [推广有奖]

副教授

38%

还不是VIP/贵宾

-

威望
0
论坛币
53 个
通用积分
6.5568
学术水平
67 点
热心指数
82 点
信用等级
30 点
经验
8631 点
帖子
451
精华
1
在线时间
155 小时
注册时间
2017-2-7
最后登录
2021-1-29

楼主
698348 在职认证  发表于 2017-10-8 16:35:15 |只看作者 |坛友微信交流群|倒序 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

Hadoop是低成本的大数据解决方案?



Hadoop是当下流行的大数据并行计算体系,横向扩展、生态圈成熟等一直是它的主要特点。但这些特点当中,绝对不包含廉价。

可能你认为的低成本,实际上只是硬件和软件授权成本,而不是总体成本。在学习成本、开发成本、管理成本上Hadoop并不总是占优。现在伴随公有云技术的成熟,Hadoop甚至连硬件成本也不占优了。

Hadoop与阿里云MaxCompute的成本对比

国内做大数据,基本就这两个选择:自建Hadoop或者使用阿里云的MaxCompute(就是原来的ODPS)。像Amazon、Google、微软的大数据服务在国内基本处于不可用或者很难用的状态。这里,我们就来对比一下这两个主流的技术选型:

以企业拥有10TB数据为例,自建hadoop集群,则至少需要6台机器(3nodes+2NameNode+1jobtracker),成本在20万左右。除此之外,还需要投入机房资源,网络设备和运维成本。这其中主要是运维成本,要知道一个运维人员的成本一年至少15万。这样,整体算下来要55万左右。

如果采用阿里云的MaxCompute,按照现在的报价,大约需要32160(存储费用)+45000(计算费用)=77160元。也就是说二者的成本差距在7倍以上。

按照Hortonworks首席技术官EricBaldeschwieler关于成本的陈述,就更为夸张:硬件成本只占Hadoop数据中心总成本的20%。

掀开Hadoop的盖子这些隐性成本你需要知道

“Hadoop是一个框架,不是一个解决方案”——在解决大数据分析的问题上人们误认为Hadoop可以立即有效工作,而实际上对于简单的查询,它是可以的。但对于难一些的分析问题,Hadoop会迅速败下阵来,因为需要你直接开发Map/Reduce代码。出于这个原因,Hadoop更像是J2EE编程环境而不是商业分析解决方案。 所谓框架意味着你一定要在之上做个性化和业务相关的开发和实现,而这些都需要成本。

同时,因为Hadoop庞大的生态系统,也导致了学习成本奇高。目前Hadoop生态中包括了几十种相关的产品,常见的就有:MapReduce、HDFS、Hive、hbase、YARN、Zookeeper、Avro、JAQL、PIG、solr、mesos、shark、stream、storm。熟悉这些产品的部署步骤、功能特性、开发方法都需要付出高昂的学习成本。

有开发者评论说,“它变得好像是用一个锤子来建造一个房屋”,这并不是不可能,但是带来了“不必要的痛苦和可笑的低效成本”。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Hadoop Hadoop成本 Hadoop大数据 数据解决方案 大数据

沙发
Joanmy 在职认证  发表于 2017-10-24 09:05:38 |只看作者 |坛友微信交流群
赞,一直想学hadoop来着

使用道具

藤椅
孤独红狐 发表于 2018-6-28 13:15:12 |只看作者 |坛友微信交流群
谢谢分享

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 16:14