用 Hadoop 进行分布式数据处理(进阶)-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 软件培训>>

hadoop

>>

用 Hadoop 进行分布式数据处理(进阶)

用 Hadoop 进行分布式数据处理(进阶)

发布:aongao | 分类:hadoop

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

摘要:Hadoop分布式计算架构的真正实力在于其分布性。换句话说,向工作并行分布多个节点的能力使Hadoop能够应用于大型基础设施以及大量数据的处理。本文首先对一个分布式Hadoop架构进行分解,然后探讨分布式配置和使 ...
坛友互助群


扫码加入各岗位、行业、专业交流群


摘要:Hadoop 分布式计算架构的真正实力在于其分布性。换句话说,向工作并行分布多个节点的能力使 Hadoop 能够应用于大型基础设施以及大量数据的处理。本文首先对一个分布式 Hadoop 架构进行分解,然后探讨分布式配置和使用。本文是嵌入式固件架构师M. Tim Jones所撰写的,本系列的用 Hadoop 进行分布式数据处理,第 1 部分:入门 展示了如何在一个单节点集群中使用 Hadoop。本文在此基础之上继续介绍一个更加高级的设置,即使用多个节点进行并行处理。展示了多节点集群所需的各种节点类型,并探讨了一个并行环境中的 MapReduce 功能。本文还深入探究了 Hadoop 的管理方面 — 同时基于命令行和 Web。

分布式 Hadoop 架构

根据 用 Hadoop 进行分布式数据处理,第 1 部分:入门,所有 Hadoop 守护进程都在同一个主机上运行。尽管不运用 Hadoop 的并行性,这个伪分布式配置提供一种简单的方式来以最少的设置测试 Hadoop 的功能。现在,让我们使用机器集群探讨一下 Hadoop 的并行性。

根据第 1 部分,Hadoop 配置定义了让所有 Hadoop 守护进程在一个节点上运行。因此,让我们首先看一下如何自然分布 Hadoop 来执行并行操作。在一个分布式 Hadoop 设置中,您有一个主节点和一些从节点(见图 1)。


图 1. Hadoop 主从节点分解

如图 1 所示,主节点包括名称节点、从属名称节点和 jobtracker 守护进程(即所谓的主守护进程)。此外,这是您为本演示管理集群所用的节点(使用 Hadoop 实用程序和浏览器)。从节点包括 tasktracker 和数据节点(从属守护进程)。两种设置的不同之处在于,主节点包括提供 Hadoop 集群管理和协调的守护进程,而从节点包括实现 Hadoop 文件系统(HDFS)存储功能和 MapReduce 功能(数据处理功能)的守护进程。

对于该演示,在一个 LAN 上创建一个主节点和两个从节点。设置如图 2 所示。现在,我们来探讨用于多节点分布的 Hadoop 的安装和配置。

图 2. Hadoop 集群配置

为简化部署,要运用虚拟化技术,该技术有几个好处。尽管在该设置中使用虚拟化技术看不出性能优势,但是它可以创建一个 Hadoop 安装,然后为其他节点克隆该安装。为此,您的 Hadoop 集群应显示如下:在一个主机上的虚拟机监控程序上下文中将主从节点作为虚拟机(VM)运行(见图 3)。

图 3. 虚拟环境中的 Hadoop 集群配置

升级 Hadoop

在 用 Hadoop 进行分布式数据处理,第 1 部分:入门 中,我们安装了在一个节点上运行的 Hadoop 的一个特殊分布(伪配置)。在本文中,我们要更新分布式配置。如果您没有看过本系列的第 1 部分,那么请阅读第 1 部分,了解如何首先安装 Hadoop 伪配置。

在伪配置中,您没有进行任何配置,因为单个节点已经过预先配置。现在,您需要更新配置。首先,使用 update-alternatives 命令检查当前配置,如清单 1 所示。该命令告诉您,配置在使用 conf.pseudo(最高优先级)。

清单 1. 检查当前 Hadoop 配置

$ update-alternatives --display

hadoop-0.20-conf

hadoop-0.20-conf - status is auto.

link currently points to /etc/hadoop-0.20/conf.pseudo

/etc/hadoop-0.20/conf.empty - priority 10

/etc/hadoop-0.20/conf.pseudo - priority 30

Current `best' version is /etc/hadoop-0.20/conf.pseudo.

$

下一步,通过复制现有配置(本例中为 conf.empty,如清单 1 所示)创建一个新配置:

$ sudo cp -r /etc/hadoop-0.20/

conf.empty /etc/hadoop-0.20/conf.dist

$

最后,激活并检查新配置:

清单 2. 激活并检查 Hadoop 配置

$ sudo update-alternatives --install

/etc/hadoop-0.20/conf hadoop-0.20-conf \

/etc/hadoop-0.20/conf.dist 40

$ update-alternatives --display hadoop-0.20-conf

hadoop-0.20-conf - status is auto.

link currently points to /etc/hadoop-0.20/conf.dist

/etc/hadoop-0.20/conf.empty - priority 10

/etc/hadoop-0.20/conf.pseudo - priority 30

/etc/hadoop-0.20/conf.dist - priority 40

Current `best' version is /etc/hadoop-0.20/conf.dist.

$

现在,您有一个名为 conf.dist 的新配置,您要将其用于您的新分布式配置。此时该节点运行于一个虚拟环境中,将该节点克隆到另外两个要充当数据节点的节点中。


来源:CSDN
扫码或添加微信号:坛友素质互助


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-3169161-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。