楼主: 时光永痕
805 0

[数据挖掘新闻] Apache Hadoop管理员提示和技巧 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

1%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-9-28 18:23:39 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
Apache Hadoop管理员提示和技巧
在这篇文章中,我将分享一些在使用Apache Hadoop环境多年以及参加许多研讨会和课程之后学到的技巧。这里的信息考虑的是2.9版左右的Apache Hadoop,但可以肯定地将其扩展到其他类似版本。
这些是构建或使用Hadoop集群时的注意事项。关于Cloudera发行版的一些注意事项。无论如何,希望对您有所帮助!
不要将Hadoop用于数百万个小文件。它会使namenode重载,并使其变慢。重载名称节点并不难。始终检查功能与文件数。Hadoop上的文件通常应大于100 MB。
名称节点中必须有1 GB的内存,可容纳约100万个文件。
节点通常在5年后失效。节点故障是H adoop中最常见的问题之一。像facebook和google这样的大公司应该在某一时刻出现节点故障。
Cloudera Manager上的MySQL没有冗余。这可能是一个失败点。
信息:fsimage文件的合并发生在辅助名称节点上。
Hadoop可以缓存块以提高性能。默认情况下,它缓存0。
您可以设置一个参数,在仅将第一个或第二个数据块复制到数据节点后,将确认消息从数据节点发送回名称  节点。这可能会使写入数据更快。
Hadoop具有机架意识:它知道哪个节点连接到了女巫交换机。实际上,由Hadoop Admin进行配置。
会不时检查文件,以验证是否有数据损坏(通常每三周一次)。这是可能的,因为数据节点存储文件校验和。
日志文件默认存储7天。
part-m-000来自mapper,part-r-000来自reducer作业。最后的数字对应于为该作业运行的减速器的数量。因此,部分r008具有9个减速器(从0开始)。
您可以更改mapper和reducers任务的log.level以获得更多信息。
mapreduce.reduce.log.level = 调试
纱线服务器检查火花的作用。localhost:4040还显示已完成的操作。
检查将namenode fsimage文件放在何处很重要。您可能要复制此文件。
? 欧都节省了大量的磁盘空间  (25%)  ,以dfs.datanode.du.reserve,对于洗牌阶段。
该阶段将被写入磁盘,因此需要空间!
当您删除文件时,它们会在删除一段时间后保留在.Trash目录中。默认时间是1天。
您可以使用水槽建造lamdba架构。? 如果你想要把数据保存在内存或磁盘水槽OU还可以指定。
关于硬件,  工作节点需要更多的内核来进行更多处理。主节点处理的不是很多。
对于 namenode,您需要更高质量的磁盘和更好的硬件(例如raid-并且raid在工作节点上没有意义)。
经验法则是:如果要存储1 TB的数据,则必须有4 TB的空间。
H adoop  应用程序通常不受CPU约束。
虚拟化可能会给您带来一些好处(更易于管理),但会影响 性能。 通常,它带来5%到30%的开销。
H adoop  不支持ipv6。您可以禁用ipv6。 您也可以   在集群内部禁用selinux。两者都有开销。
起始群集的合适大小约为6个节点。
有时,当群集太满时,您可能必须删除一个小文件才能删除一个较大的文件。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:apache Hadoop PAC Had APA

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-5 19:09