楼主: 时光永痕
568 0

[数据挖掘新闻] CPU供应商争夺内存带宽,以在实际应用程序性能中取得领先地位 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

54%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
CPU供应商争夺内存带宽,以在实际应用程序性能中取得领先地位
现在是采购系统的好时机,因为供应商终于解决了内存带宽瓶颈。简而言之,无论是CPU还是GPU,内存性能都在现代设备的性能范围中占主导地位。 硬件运行的是HPC,AI还是高性能数据分析(HPC-AI-HPDA)应用程序,或者这些应用程序是在本地还是在云中运行都没有关系。这是有道理的,因为执行的多个并行线程和宽向量单元仅在不缺乏数据时才能提供高性能。 [ii] 让我们看一下现在可用的系统,这些系统可以作为当前和近期采购的基准。
内存带宽由内存通道数定义
首先,请查看设备支持的每个插槽的内存通道数。简而言之,设备拥有的内存通道越多,单位时间内可以处理的数据就越多,这当然是性能的定义。
因此,寻找每个插槽中最多的内存通道数。
很简单,每个套接字的存储通道数越多,设备可以消耗更多的数据来保持其处理元素的繁忙。缺乏数据的计算硬件无法执行有用的工作。如果计算单元无法获取数据,则设备支持多少个内核,执行线程或每个内核支持的向量单元数量无关紧要。饥饿的计算单元必须处于空闲状态。空闲的硬件浪费了硬件。
供应商已经意识到这一点,现在正在向其处理器添加更多的内存通道。从AMD Rome系列处理器[iii] 每个插槽提供的八个存储通道以及每个插槽最多可包含八个存储通道的基于ARM的Marvel ThunderX2处理器 可以看出这一趋势。[iv] 一次激烈的竞争,英特尔于2019年4月推出了 Intel Xeon Platinum 9200 Processor系列,每个插槽包含12个存储通道。
标杆讲述故事
基准测试可以很好地说明内存带宽的情况。英特尔最近发布了以下双机比较:双插槽Intel Xeon-AP系统(包含两个Intel Xeon Platinum 9282处理器)和双插槽AMD Rome 7742系统。如下图所示,每个插槽的Intel 12内存通道(2S配置中为24)系统的AMD平均每个插槽的AMD 8内存通道(两个插槽共16个)的几何平均值在31%的范围内均超过了AMD。实际的HPC工作负载。
AMD与Intel HPC Performance Leadership Benchmarks更新了最新的GROMACS 2019.4版本,其中Intel发现与2019.3版本上发布的早期数据没有实质性差异
(来源Intel)[v]  
这些基准测试说明了为何Steve Collins(英特尔数据中心性能总监)在他的 博客中写道-他最近更新该博客以解决社区反馈:“英特尔至强铂金9200处理器家族……拥有最高的两插槽英特尔架构FLOPS。每个机架以及任何英特尔至强平台最高的DDR4本机带宽。Xeon Platinum 9282在各种用途的真实HPC工作负载上提供行业领先的性能。” [vi]目前暂未单独出售,请寻求Intel服务器系统S9200WK,HPE Apollo 20系统或各种合作伙伴[vii]对这些CPU进行基准测试。
“英特尔至强铂金9200处理器系列…具有每机架最高的两插槽英特尔架构FLOPS,以及所有英特尔至强平台中最高的DDR4本机带宽。Xeon Platinum 9282可在广泛的使用情况下,在实际的HPC工作负载上提供行业领先的性能。” – 英特尔数据中心性能总监Steve Collins
将这些结果外推到您的工作负载
从一般基准测试结果中推断总是很危险的,但是在内存带宽的情况下,并且鉴于当前内存带宽有限的HPC应用程序的性质,可以肯定地说每个插槽处理器12通道的速度平均快31%而不是8通道处理器 这可以极大地提高HPC中心的生产力和企业数据中心的利润。预期该性能提高31%将适用于大多数已编译为在x86矢量机上运行的矢量并行应用程序工作负载。无需更改源代码。
平衡核心与工作量
简单的数学计算表明,每个插槽内存处理器12通道的性能应比每个插槽处理器8通道的性能高1.5倍。但是,前面的基准显示平均性能提高了31%。
这种差异的原因是,虽然内存带宽是大多数应用程序的关键瓶颈,但这并不是唯一的瓶颈,这说明了为什么选择核心数量以满足数据中心工作负载的需求如此重要的原因。简而言之,当内存带宽对整体数据中心性能更重要时,选择更多的内核来计算绑定的工作负载,而选择更少的内核。大多数数据中心都将寻求中间立场,以最好地容纳数据并计算绑定的工作负载。令人高兴的是,这可以转化为购买更多计算节点,因为更高内核数的处理器往往更昂贵,有时对于高内核数的设备而言如此疯狂。
所有这些讨论以及更多内容都封装在 NSF Atkins报告中讨论的内存带宽与浮点性能平衡比(内存带宽)/(触发器数量/秒)[viii] [ix] 中。 [X]  简而言之,更多的内核(或每个内核更多的向量单元)将转化为更高的理论触发器速率。将内存带宽除以理论上的翻转率会考虑内存子系统(在我们的情况下为内存通道数)的影响以及内存子系统为CPU中的处理器内核提供服务或造成饥饿的能力。由采购团队决定何时该平衡比率变得太小,以信号指示何时将更多的核心浪费在目标工作负载上。通过查看数据中心中运行的现有应用程序的余额比率,可以确定余额比率值的近似值。基本上遵循常识性方法,保留有效的方法并改进无效的方法。更多技术读者不妨参考 利特尔定律 定义与HPC相关的并发,以更多的数学术语表述此常识方法。 [xi]
冷却很重要
并行和矢量操作的功率和热要求也会对性能产生严重影响。这意味着采购委员会必须考虑液体冷却与空气冷却的好处。
许多HPC应用程序已设计为可以并行运行并可以向量化。只要持续的flop / s速率不超过芯片的散热极限,这样的应用程序就可以在每个内核包含多个矢量单元的多核处理器上运行得非常好。
因此,当运行高度并行的矢量代码时,请考虑液体冷却。液体冷却是将芯片所有部分保持在热限制内以实现完整性能的最佳方法,即使在持续的高触发器工作量下也是如此。否则,处理器可能不得不降频以保持在其散热范围内,从而降低性能。
在12通道处理器中,散热限制可能是某些HPC Performance Leadership基准测试速度低于1.5倍的原因。当然,这些警告只是强调需要在硬件上运行自己的基准测试。因此,本文将重点放在当前可用的硬件上,以便您可以对现有系统进行基准测试,而不是“市场软件”。
有关AI的高级说明
处理器供应商还提供了精度较低的硬件计算单元,以支持AI推理工作负载。在HPC和企业数据中心中,人工智能正在迅速成为无处不在的工作负载。降低精度的算术只是使内存中的每个数据事务更高效的一种方法。例如,bfloat16数字实际上使每个32位内存事务的内存带宽加倍。同样,Int8算法有效地将每个32位内存事务的带宽提高了三倍。 [xii] 借助适当的内部算术支持,这些降低精度的数据类型的使用最多可将性能提高2倍和4倍,但请不要忘记考虑在数据类型之间进行转换的性能开销!
摘要
现在,多核并行性已成为常态。随着内核数量的增加,对存储系统的需求也就不足为奇了。类似地,随着每个向量单元数据的运行,每个内核添加更多的向量单元也增加了对存储子系统的需求。
读者注意
可以购买AMD和Marvel处理器。可以从包括Atos,HPE / Cray,Lenovo,Inspur,Sugon,H3C和Penguin Computing在内的Intel生态系统合作伙伴购买Intel Xeon Platinum 9200处理器作为集成系统的一部分。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:实际应用 应用程序 CPU 供应商 performance

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-30 16:33