楼主: aongao
1910 0

不看不知道 六个超大规模Hadoop部署案例【二】 [推广有奖]

  • 5关注
  • 31粉丝

VIP

教授

52%

还不是VIP/贵宾

-

TA的文库  其他...

新能源&可持續發展

農業&经济

威望
1
论坛币
33743 个
通用积分
5631.2235
学术水平
153 点
热心指数
194 点
信用等级
114 点
经验
89568 点
帖子
626
精华
2
在线时间
1101 小时
注册时间
2014-1-20
最后登录
2022-4-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
电子港湾(eBay)的Hadoop环境

  先来介绍你在电子商务兴起时期最先开始听到的一家公司:电子港湾(eBay)。

  案例之一:电子港湾的Hadoop环境


  电子港湾公司分析平台开发小组的Anil Madan讨论了这家拍卖行业的巨擘在如何充分发挥Hadoop平台的强大功能,充分利用每天潮水般涌入的8TB至10TB数据。


  虽然电子港湾只是几年前才开始向生产型Hadoop环境转移,但它却是早在2007年就率先开始试用Hadoop的大规模互联网公司之一,当时它使用一个小型集群来处理机器学习和搜索相关性方面的问题。


  这些涉及的是少量数据;Madan表示,但是就这个试验项目而言很有用;不过随着数据日益增加、用户活动日益频繁,电子港湾想充分利用几个部门和整个用户群当中的数据。


  电子港湾的第一个大型Hadoop集群是500个节点组成的Athena,这个专门建造的生产型平台可以满足电子港湾内部几个部门的要求。该集群只用了不到三个月就建成了,开始高速处理预测模型、解决实时问题;后来不断扩大规模,以满足其他要求。


  Madan表示,该集群现由电子港湾的许多小组使用,既用于日常生产作业,又用于一次性作业。小组使用Hadoop的公平调度器(Fair Scheduler)来管理资源分配、为各小组定义作业池、赋予权重、限制每个用户和小组的并行作业,并且设定抢占超时和延迟调度。


  虽然Madan经常在台上畅谈Hadoop具有的实际价值,他也经常提到工作小组在扩建电子港湾基础设施时面临、继续竭力克服的几个主要挑战。下面列出了与Hadoop有关的一系列挑战:


  可扩展性

  就现有版本而言,主服务器NameNde存在可扩展性问题。由于集群的文件系统不断扩大,它占用的内存空间也随之扩大,因为它把整个元数据保存在内存中。1PB的存储容量大概需要1GB的内存容量。几种切实可行的解决方案是分层命名空间分区,或者结合使用Zkeeper和HBase,实现元数据管理。


  可用性

  NameNde的可用性对生产型工作负载来说至关重要。开源社区正致力于冷备份(cld standby)、暖备份(warm standby)和热备份(ht standby)这几个选项,比如检查点(Checkpint)节点和备份(Backup)节点;从辅助NameNde切换avatar的Avatar节点;以及日志元数据复制技术。我们正在评估这些方案,以建立我们的生产型集群。


  数据发现

  在天生不支持数据结构的系统上支持数据监管、发现和模式管理。一个新项目准备把Hive的元数据存储区和wl合并成一个新系统,名为Hwl。我们旨在努力把该系统连接到我们的分析平台中,那样我们的用户很容易跨不同的数据系统发现数据。


  数据移动

  我们正在努力开发发布/订阅数据移动工具,以便跨我们不同的子系统,如数据仓库和Hadoop分布式文件系统(HDFS),支持数据拷贝和调和。


  策略

  通过配额(目前的Hadoop配额需要做一些改进)进行存储容量管理,能够制定良好的保留、归档和备份等策略。我们正根据集群的工作负载和特点,跨不同的集群努力定义这些策略。


  度量指标、度量指标、度量指标

  我们正在开发成熟可靠的工具,以便生成度量指标,用于度量数据来源、使用情况、预算编制和利用率。一些Hadoop企业服务器体现的现有度量指标有的不够全面,有的只是临时的,很难看清楚集群使用模式。

来源:中关村在线
不看不知道六个超大规模Hadoop部署案例【一】

不看不知道 六个超大规模Hadoop部署案例【二】

不看不知道 六个超大规模Hadoop部署案例【三】

不看不知道 六个超大规模Hadoop部署案例【四】

不看不知道 六个超大规模Hadoop部署案例【五】
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Hadoop 超大规模 不知道 Had 大规模 电子商务 互联网 相关性 规模 开发

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 04:20