在上一个 博客中, 我向我们介绍了Hadoop,它使公司可以处理,存储和分析PB级,Exabyte甚至Yottabytes的数据。不仅限于您在电子表格中找到的那种数据,Hadoop还可以处理 各种各样 的数据(有人会说几乎所有类型的数据)。如承诺的那样,该博客深入探讨了“秘密秘诀”,以探索Hadoop执行其魔术的主要计算原理:集群,读取架构和map + reduce。由于这些都是深入的主题,因此在本博客中,我们将重点介绍群集。
分而治之:四个普通人比一个强壮的肌肉更强大传统的计算是通过“客户端/服务器”模型在一两台计算机上完成的。这意味着一台计算机正在指示其自身的另一部分,或另一台计算机(在大多数情况下称为“服务器”)正在执行某项操作。几十年来,这种模式已经很好地为我们服务(没有双关语)。但是,在拥有数百万全球用户的海量数据集和应用程序的时代,需求通常超出了一台计算机的处理能力。Hadoop通过使用多台计算机完成一项工作来解决此问题。
可以像其他工作一样思考它。如果您需要将钢琴提上楼梯,那么即使是世界上最强壮的肌肉发达的人也都会把他的背部摔下来。但是对于四个或五个常规尺寸的家伙来说,这没问题。计算工作原理几乎相同。Hadoop使用所谓的“集群”范例,该范例使用服务器组(计算机)与单个服务器进行存储,处理和计算。这有多个名称,您可能听说过它称为“分布式计算”或“向外扩展”。借助Hadoop,企业无需“扩大规模”(即将数据移至功能更强大的服务器),而是可以通过简单地将服务器添加到工作中来“横向扩展”。真正有趣的是,使用这种模型,这些服务器(计算机)可以是“商品”,这是一种很好的说法,即它们是正常的,
您可以绕过“名称节点”,也可以绕数据节点。追溯到上一篇文章,它们在Hadoop的核心组件HDFS和YARN的协调下工作(我们将很快转到MapReduce)。“秘密调味料”涉及划分和征服工作,因此每个服务器仅参与部分任务。就像盖房子一样,一个团队可以协同完成各种各样的工作,而不是由一个建造者完成所有工作。每个服务器都被描述为一个“节点”,您可以从一个单节点群集开始并随需添加计算机(从技术上讲,单个节点还不是群集,多个节点组成一个群集,但是没人会喊叫)指的是单节点群集)。
每个集群都有一种“老板”服务器,称为 名称节点,用于接收您的请求并协调所有活动,还有一个或多个 数据节点 ,它们根据名称节点提供的指示实际进行工作。继续进行房屋建筑类比,名称节点就像承包商或领班,而数据节点则是各种建筑工人和专家。在传统的“客户端/服务器”模型中,您(客户端)将指导一个构建器。在Hadoop中,您将指导承包商,然后由承包商指导整个工作组。 突破计算能力的极限
在集群(而不是一台计算机)上运行程序的能力是Hadoop处理大数据能力的关键,并且Hadoop实际上可以从单个服务器“扩展”到数千台服务器。从本质上讲,这打破了计算能力的界限,并使我们十年前无法梦想的事情得以完成。Facebook的?没有集群就不可能。谷歌?甚至不用考虑在一台计算机上尝试与此类似的任何事情。
为什么不对所有内容都使用Hadoop?专家很快指出,Hadoop确实牺牲了一些效率来支持大规模可伸缩性,并且在处理 小规模数据时可能会出现问题。但是,情况变化很快,几年后,谁知道呢?Hadoop对于小型数据集也可能是可行的解决方案,但是现在我们必须拭目以待。
那么所有这些东西如何完成呢?四,五甚至一千台计算机如何一起工作来完成一项工作?他们使用MapReduce和阅读模式进行操作,我们将在我的下一个博客中讨论它-敬请期待!

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


雷达卡



京公网安备 11010802022788号







