请选择 进入手机版 | 继续访问电脑版
楼主: 时光永痕
411 0

[数据挖掘新闻] 经过工作负载优化的计算服务器正在创造对融合集群的需求 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)二级

53%

威望
0
论坛币
26 个
通用积分
49.7565
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
313 小时
注册时间
2020-7-21
最后登录
2024-3-25

时光永痕 学生认证  发表于 2020-9-24 21:32:00 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
经过工作负载优化的计算服务器正在创造对融合集群的需求
统一数据环境中的池化群集(也称为“聚合”群集)比单独的孤立群集更好地支持分散的工作负载。现在,供应商为融合群集提供直接支持,以运行关键的HPC-AI-HPDA(AI,HPC和高性能数据分析)工作负载。
工作负载优化的计算服务器的成功产生了对聚合集群的需求,因为组织通常会零星添加工作负载优化的集群以支持其不同的AI,HPC和HPDA需求。
不幸的是,许多不同的集群是孤立运行的,它们将资源专用于特定的工作负载,并由人管理,实际上将它们置于孤岛中,以致于无法使整个组织受益。从运营效率的角度来看,这毫无意义,因为它浪费了运营时间以及OpEx(运营支出)和CapEx(资本支出)资金。[一世]
例如,大多数组织都不会全天候(24x7)运行深度学习网络的基础架构。这些工作负载的兼职性质意味着该专用基础结构通常处于闲置状态,并且可能需要稀有技能来提供支持,这两种成本都会对企业造成巨大的成本。
这导致以下有关融合基础架构优势的观察。
图1:融合集群的优势
最大限度地发挥高性能服务器的优势-解决这一挑战
遇到问题的感觉真是太好了,因为单个优化工作站和服务器的性能已经提升了目标工作负载的性能,甚至可以达到甚至超过几年前的TOP500计算集群的teraflop / s性能。现在,过去的英雄运行如今已在包含大量此类工作负载优化服务器的横向扩展群集上正常运行。
同时,云计算已经退出HPC的试验阶段,以支持在AI和其他工作负载上进行超过一百万次的核心运行,[ii]这将领导级别的HPC,AI和HPDA推向了大众。云驱动了新工具和软件生态系统的快速成熟,从而提高了工作负载优化系统的功能和性能。因此,云是当今HPC和企业数据中心中HPC-AI-HPDA融合的一个因素,并且必须发挥作用。
以下是一些运行HPC-AI-HPDA工作负载的HPC系统示例。
图2:运行AI和HPC工作负载的示例系统
融合的挑战
在同一群集上运行所有三个工作负载(例如HPC-AI-HPDA)的主要问题是很难在正确的时间将定制软件堆栈加载到群集上。即使使用容器,大多数组织也可以在孤岛上进行部署,因为这样集群才能在正确的时间拥有正确的软件。
HPC-AI-HPDA工作负载在硬件和系统软件级别对存储和网络子系统的压力不同。因此,拥有正确的软件并不意味着仅安装正确的库和优化的工具,因为还必须安装正确的系统软件以利用工作负载特定的硬件功能。 [iii] [iv]
储存空间不同
AI和HPDA工作负载从存储中读取的频率往往比写入要频繁得多,再加上数据访问往往是流式传输(例如,带宽受限)或严重的随机访问(iop / s受限),尤其是在处理数据库和非结构化数据时。相反,HPC工作负载的写入频率往往要高得多。特别是检查点操作已导致HPC系统中写优化的突发缓冲区的开发。这些极端的性能倾向于驱动不同的硬件设计。
不同的HPC计划要求
AI和HPDA运行倾向于使作业排队,而不是像HPC运行那样安排时间。当研究科学家想要以交互方式对模拟数据进行探索性分析时,会发生常见的HPDA运行。通常,Spark是一个非常好的工具。在HPC环境中执行此操作的理想方法是使用交互式sbatch命令分离Spark集群。但是,不建议在HPC中心进行交互式运行,因为当队列中有很多人等待时,它们会占用资源。
为了支持HPC系统上面向数据的工作流,LLNL开发了Magpie。Magpie是一个开放源代码项目,用于在HPC系统上运行大数据框架。它使用Slurm,Moab,Torque和LSF作业调度程序在HPC系统上支持流行的大数据框架,例如Hadoop,Spark,HBase,Storm,Zeppelin,Kafka,Pig和Zookeeper。
喜p可以通过抽签提交。如下所示,它在所有节点上设置一个Spark集群,并检查环境变量的设置和输入参数。等级为零的MPI节点成为Spark主节点,启动守护程序并执行其他设置,以便研究科学家可以连接至Spark主节点并使用Jupyter笔记本或其他交互式工具来完成工作。
图3:使用SLURM配置Magpie数据分析运行
供应商还支持其他方法,例如技术报告“ 在通用平台上支持仿真和建模,AI和分析”中讨论的Univa Grid 。
其他硬件挑战
这些技术报告中讨论的其他挑战包括解决针对高端HPC通信结构的云和AI框架缺乏优化的问题。文献中的其他报告还包括HPC系统面临的存储容量挑战,因为诸如SGD(随机梯度下降)之类的随机训练方法会导致某些节点上的内存使用量大。[v]
聚合工作负载的三个支柱:数据,软件和平台
融合架构的需求可以归纳为以下三个支柱。前面已经讨论了前两个(例如优化的服务器和HPC调度程序支持)。简而言之,它们提供了有效运行集群上所有聚合的工作负载24/7的能力。接下来将讨论第三个支柱,以将所有融合的集群绑定到统一的数据抽象中。
图4:融合系统的三个支柱
减少脆弱性和数据移动需要统一的存储抽象
融合系统对数据呈现统一的视图至关重要。否则,系统会由于人为错误(例如访问数据的脚本中的错误路径名)而变得脆弱,或者花费过多的时间在集群之间移动数据。许多供应商建议提供统一存储抽象的解决方案是开源的Alluxio存储抽象软件。
Alluxio是一个开源项目,最初是Spark的子项目。如下所示,它充当各种流行的计算和存储实现之间的数据层。它旨在提供抽象存储层的分布式缓存服务,以便用户可以使用云,对象或块存储。
图5:Alluxio提供了统一的数据抽象
摘要
简而言之,在HPC系统上运行AI和HPDA具有明显的优势,这意味着数据科学和HPC组织现在都必须支持HPC-AI-HPDA工作负载。现在,供应商支持将多个HPC-AI-HPDA群集集中到一个统一数据环境中以节省资金和用户痛苦的愿景。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:服务器 ZooKeeper Hadoop keeper Spark

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 16:24