不看不知道 六个超大规模Hadoop部署案例【二】-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 软件培训>>

hadoop

>>

不看不知道 六个超大规模Hadoop部署案例【二】

不看不知道 六个超大规模Hadoop部署案例【二】

发布:aongao | 分类:hadoop

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

电子港湾(eBay)的Hadoop环境  先来介绍你在电子商务兴起时期最先开始听到的一家公司:电子港湾(eBay)。  案例之一:电子港湾的Hadoop环境http://2b.zol-img.com.cn/product/130/631/cek4EKMlOW3ew.jpg  电 ...
坛友互助群


扫码加入各岗位、行业、专业交流群


电子港湾(eBay)的Hadoop环境

  先来介绍你在电子商务兴起时期最先开始听到的一家公司:电子港湾(eBay)。

  案例之一:电子港湾的Hadoop环境

http://2b.zol-img.com.cn/product/130/631/cek4EKMlOW3ew.jpg

  电子港湾公司分析平台开发小组的Anil Madan讨论了这家拍卖行业的巨擘在如何充分发挥Hadoop平台的强大功能,充分利用每天潮水般涌入的8TB至10TB数据。


  虽然电子港湾只是几年前才开始向生产型Hadoop环境转移,但它却是早在2007年就率先开始试用Hadoop的大规模互联网公司之一,当时它使用一个小型集群来处理机器学习和搜索相关性方面的问题。


  这些涉及的是少量数据;Madan表示,但是就这个试验项目而言很有用;不过随着数据日益增加、用户活动日益频繁,电子港湾想充分利用几个部门和整个用户群当中的数据。


  电子港湾的第一个大型Hadoop集群是500个节点组成的Athena,这个专门建造的生产型平台可以满足电子港湾内部几个部门的要求。该集群只用了不到三个月就建成了,开始高速处理预测模型、解决实时问题;后来不断扩大规模,以满足其他要求。


  Madan表示,该集群现由电子港湾的许多小组使用,既用于日常生产作业,又用于一次性作业。小组使用Hadoop的公平调度器(Fair Scheduler)来管理资源分配、为各小组定义作业池、赋予权重、限制每个用户和小组的并行作业,并且设定抢占超时和延迟调度。


  虽然Madan经常在台上畅谈Hadoop具有的实际价值,他也经常提到工作小组在扩建电子港湾基础设施时面临、继续竭力克服的几个主要挑战。下面列出了与Hadoop有关的一系列挑战:


  可扩展性

  就现有版本而言,主服务器NameNde存在可扩展性问题。由于集群的文件系统不断扩大,它占用的内存空间也随之扩大,因为它把整个元数据保存在内存中。1PB的存储容量大概需要1GB的内存容量。几种切实可行的解决方案是分层命名空间分区,或者结合使用Zkeeper和HBase,实现元数据管理。


  可用性

  NameNde的可用性对生产型工作负载来说至关重要。开源社区正致力于冷备份(cld standby)、暖备份(warm standby)和热备份(ht standby)这几个选项,比如检查点(Checkpint)节点和备份(Backup)节点;从辅助NameNde切换avatar的Avatar节点;以及日志元数据复制技术。我们正在评估这些方案,以建立我们的生产型集群。


  数据发现

  在天生不支持数据结构的系统上支持数据监管、发现和模式管理。一个新项目准备把Hive的元数据存储区和wl合并成一个新系统,名为Hwl。我们旨在努力把该系统连接到我们的分析平台中,那样我们的用户很容易跨不同的数据系统发现数据。


  数据移动

  我们正在努力开发发布/订阅数据移动工具,以便跨我们不同的子系统,如数据仓库和Hadoop分布式文件系统(HDFS),支持数据拷贝和调和。


  策略

  通过配额(目前的Hadoop配额需要做一些改进)进行存储容量管理,能够制定良好的保留、归档和备份等策略。我们正根据集群的工作负载和特点,跨不同的集群努力定义这些策略。


  度量指标、度量指标、度量指标

  我们正在开发成熟可靠的工具,以便生成度量指标,用于度量数据来源、使用情况、预算编制和利用率。一些Hadoop企业服务器体现的现有度量指标有的不够全面,有的只是临时的,很难看清楚集群使用模式。

来源:中关村在线
不看不知道六个超大规模Hadoop部署案例【一】
不看不知道 六个超大规模Hadoop部署案例【二】
不看不知道 六个超大规模Hadoop部署案例【三】
不看不知道 六个超大规模Hadoop部署案例【四】
不看不知道 六个超大规模Hadoop部署案例【五】
扫码或添加微信号:坛友素质互助


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-3101527-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。