楼主: 王奕婷呀
61 0

大数据Hadoop安装、使用指南 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

小学生

14%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
40 点
帖子
3
精华
0
在线时间
0 小时
注册时间
2018-11-23
最后登录
2018-11-23

楼主
王奕婷呀 发表于 2025-12-11 13:32:14 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

1、核心概念:深入理解大数据与Hadoop架构

在当今数据驱动的时代,掌握大数据处理技术已成为关键能力之一。Hadoop作为分布式计算的基石,其设计理念紧密围绕大数据的四大特征展开:

  • Volume(海量):面对PB级别的数据存储需求,传统单机数据库系统已无法胜任,必须借助分布式架构进行扩展。
  • Velocity(高速):数据以极快速度持续生成,如直播平台的实时弹幕流或物联网设备的传感器信号,要求系统具备近实时的处理能力。
  • Variety(多样):数据形态复杂多变,涵盖结构化数据(如关系型数据库表)、半结构化格式(如JSON、XML)以及非结构化内容(如图像、视频文件)。
  • Value(低价值密度):大量原始数据中仅有少量信息具有实际意义,例如一小时的监控录像可能仅包含十几秒的关键画面,需通过高效算法实现“数据提纯”。

Hadoop的设计初衷与核心特性

为应对上述挑战,Hadoop构建了三大核心机制:

  1. 分布式存储机制:将大规模数据切分为固定大小的数据块(默认128MB),并分布存储于由普通服务器组成的集群中,提升整体存储容量与访问效率。
  2. 分布式计算模型:采用“移动计算而非移动数据”的策略,将计算任务调度至数据所在的节点执行,显著降低网络传输开销。例如,在统计全国图书馆《红楼梦》借阅情况时,各地节点本地完成统计后再汇总结果。
  3. 高容错性保障:每个数据块自动生成3份副本,并跨不同机架存放,确保即使个别节点或机架发生故障,数据依然安全可靠,不丢失任何信息。

2、Hadoop环境部署流程

2.1 Java运行环境配置

Hadoop基于Java开发,因此必须预先安装兼容版本的JDK,推荐使用JDK 8或JDK 11。

root@tdserver:/# java -version
java version "11.0.19" 2023-04-18 LTS
Java(TM) SE Runtime Environment 18.9 (build 11.0.19+9-LTS-224)
Java HotSpot(TM) 64-Bit Server VM 18.9 (build 11.0.19+9-LTS-224, mixed mode)

配置全局环境变量以确保系统能正确识别Java路径:

sudo vim /etc/profile
export JAVA_HOME=/www/server/java/jdk-11.0.19
export PATH=$JAVA_HOME/bin:$PATH

2.2 Hadoop安装与核心文件设置

从官方渠道获取Hadoop安装包并完成解压与目录迁移:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/
mv /usr/local/hadoop-3.3.1 /usr/local/hadoop

接下来进行关键配置文件的修改:

1. 修改 hadoop-env.sh

sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/www/server/java/jdk-11.0.19

2. 配置 core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://主节点IP:9000</value>
  </property>
</configuration>

3. 设置 hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/usr/local/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/usr/local/hadoop/data/datanode</value>
  </property>
</configuration>

3、集群启动操作步骤

首次部署完成后,需对NameNode进行格式化操作(注意:此命令仅在初次初始化时执行一次):

hdfs namenode -format

随后依次启动HDFS与YARN服务:

start-dfs.sh
start-yarn.sh

4、安装结果验证方法

4.1 Hadoop功能测试

通过创建测试文件并查看其状态,确认HDFS是否正常工作。可使用以下命令进行基础读写验证:

# 创建HDFS中的目录
hdfs dfs -mkdir /test

# 将本地文件上传至HDFS指定路径
hdfs dfs -put /path/to/localfile /test/

# 列出HDFS中/test目录下的文件内容
hdfs dfs -ls /test

# 实时查看NameNode的日志信息(日志默认位于$HADOOP_HOME/logs)
tail -f $HADOOP_HOME/logs/hadoop-*-namenode-*.log

# 实时追踪DataNode的日志输出
tail -f $HADOOP_HOME/logs/hadoop-*-datanode-*.log

4.2 Hadoop服务状态检查

通过执行 jps 命令可以查看当前运行的Java进程,确认NameNode、DataNode等组件是否正常启动。同时可根据输出确定Web UI所使用的端口号,确保对应端口已开放且可访问。

4.1 Web UI 访问方式

  • NameNode 管理界面:
    http://localhost:9870
    (默认HTTP端口为9870)
  • DataNode 节点信息页面:
    http://localhost:9864
  • Secondary NameNode 页面:
    http://localhost:9868

建议在日常维护中持续监控NameNode的日志变化,便于及时发现异常情况。

# 监控NameNode日志输出
tail -f $HADOOP_HOME/logs/hadoop-*-namenode-*.log

预防性维护措施

  1. 定期清理系统中/tmp目录下由Hadoop生成的临时文件,防止占用过多磁盘空间。
  2. 在启动脚本中加入前置检查机制,例如 start-dfs.sh 可自动检测已有进程ID(PID),并终止旧实例以避免冲突。
  3. 将Hadoop的日志(log)和进程ID(pid)文件存储路径配置到非系统分区,如:
    /data/hadoop/logs 和 /data/hadoop/pid,从而降低系统盘满载风险。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:hadoop安装 Hadoop 使用指南 Had 大数据

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-2-11 07:58