发帖

楼主: 王奕婷呀

61 0

大数据Hadoop安装、使用指南 [推广有奖]

0关注
0粉丝

等待验证会员

小学生

14%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 40 点
帖子: 3
精华: 0
在线时间: 0 小时
注册时间: 2018-11-23
最后登录: 2018-11-23

楼主

王奕婷呀 发表于 2025-12-11 13:32:14 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

1、核心概念：深入理解大数据与Hadoop架构

在当今数据驱动的时代，掌握大数据处理技术已成为关键能力之一。Hadoop作为分布式计算的基石，其设计理念紧密围绕大数据的四大特征展开：

Volume（海量）：面对PB级别的数据存储需求，传统单机数据库系统已无法胜任，必须借助分布式架构进行扩展。
Velocity（高速）：数据以极快速度持续生成，如直播平台的实时弹幕流或物联网设备的传感器信号，要求系统具备近实时的处理能力。
Variety（多样）：数据形态复杂多变，涵盖结构化数据（如关系型数据库表）、半结构化格式（如JSON、XML）以及非结构化内容（如图像、视频文件）。
Value（低价值密度）：大量原始数据中仅有少量信息具有实际意义，例如一小时的监控录像可能仅包含十几秒的关键画面，需通过高效算法实现“数据提纯”。

Hadoop的设计初衷与核心特性

为应对上述挑战，Hadoop构建了三大核心机制：

分布式存储机制：将大规模数据切分为固定大小的数据块（默认128MB），并分布存储于由普通服务器组成的集群中，提升整体存储容量与访问效率。
分布式计算模型：采用“移动计算而非移动数据”的策略，将计算任务调度至数据所在的节点执行，显著降低网络传输开销。例如，在统计全国图书馆《红楼梦》借阅情况时，各地节点本地完成统计后再汇总结果。
高容错性保障：每个数据块自动生成3份副本，并跨不同机架存放，确保即使个别节点或机架发生故障，数据依然安全可靠，不丢失任何信息。

2、Hadoop环境部署流程

2.1 Java运行环境配置

Hadoop基于Java开发，因此必须预先安装兼容版本的JDK，推荐使用JDK 8或JDK 11。

root@tdserver:/# java -version
java version "11.0.19" 2023-04-18 LTS
Java(TM) SE Runtime Environment 18.9 (build 11.0.19+9-LTS-224)
Java HotSpot(TM) 64-Bit Server VM 18.9 (build 11.0.19+9-LTS-224, mixed mode)

配置全局环境变量以确保系统能正确识别Java路径：

sudo vim /etc/profile
export JAVA_HOME=/www/server/java/jdk-11.0.19
export PATH=$JAVA_HOME/bin:$PATH

2.2 Hadoop安装与核心文件设置

从官方渠道获取Hadoop安装包并完成解压与目录迁移：

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/
mv /usr/local/hadoop-3.3.1 /usr/local/hadoop

接下来进行关键配置文件的修改：

1. 修改 hadoop-env.sh

sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/www/server/java/jdk-11.0.19

2. 配置 core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://主节点IP:9000</value>
  </property>
</configuration>

3. 设置 hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/usr/local/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/usr/local/hadoop/data/datanode</value>
  </property>
</configuration>

3、集群启动操作步骤

首次部署完成后，需对NameNode进行格式化操作（注意：此命令仅在初次初始化时执行一次）：

hdfs namenode -format

随后依次启动HDFS与YARN服务：

start-dfs.sh
start-yarn.sh

4、安装结果验证方法

4.1 Hadoop功能测试

通过创建测试文件并查看其状态，确认HDFS是否正常工作。可使用以下命令进行基础读写验证：

# 创建HDFS中的目录
hdfs dfs -mkdir /test

# 将本地文件上传至HDFS指定路径
hdfs dfs -put /path/to/localfile /test/

# 列出HDFS中/test目录下的文件内容
hdfs dfs -ls /test

# 实时查看NameNode的日志信息（日志默认位于$HADOOP_HOME/logs）
tail -f $HADOOP_HOME/logs/hadoop-*-namenode-*.log

# 实时追踪DataNode的日志输出
tail -f $HADOOP_HOME/logs/hadoop-*-datanode-*.log

4.2 Hadoop服务状态检查

通过执行 jps 命令可以查看当前运行的Java进程，确认NameNode、DataNode等组件是否正常启动。同时可根据输出确定Web UI所使用的端口号，确保对应端口已开放且可访问。

4.1 Web UI 访问方式

NameNode 管理界面：
http://localhost:9870
（默认HTTP端口为9870）
DataNode 节点信息页面：
http://localhost:9864
Secondary NameNode 页面：
http://localhost:9868

建议在日常维护中持续监控NameNode的日志变化，便于及时发现异常情况。

# 监控NameNode日志输出
tail -f $HADOOP_HOME/logs/hadoop-*-namenode-*.log

预防性维护措施

定期清理系统中/tmp目录下由Hadoop生成的临时文件，防止占用过多磁盘空间。
在启动脚本中加入前置检查机制，例如 start-dfs.sh 可自动检测已有进程ID（PID），并终止旧实例以避免冲突。
将Hadoop的日志（log）和进程ID（pid）文件存储路径配置到非系统分区，如：
/data/hadoop/logs 和 /data/hadoop/pid，从而降低系统盘满载风险。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：hadoop安装 Hadoop 使用指南 Had 大数据

返回列表

发帖

大数据Hadoop安装、使用指南 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

1、核心概念：深入理解大数据与Hadoop架构

Hadoop的设计初衷与核心特性

2、Hadoop环境部署流程

2.1 Java运行环境配置

2.2 Hadoop安装与核心文件设置

3、集群启动操作步骤

4、安装结果验证方法

4.1 Hadoop功能测试

4.2 Hadoop服务状态检查

4.1 Web UI 访问方式

预防性维护措施

扫码加我拉你入群

浏览过的帖子

浏览过的版块

本版微信群

大数据Hadoop安装、使用指南 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

1、核心概念：深入理解大数据与Hadoop架构

Hadoop的设计初衷与核心特性

2、Hadoop环境部署流程

2.1 Java运行环境配置

2.2 Hadoop安装与核心文件设置

3、集群启动操作步骤

4、安装结果验证方法

4.1 Hadoop功能测试

4.2 Hadoop服务状态检查

4.1 Web UI 访问方式

预防性维护措施

扫码加我 拉你入群

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群