楼主: W160730202752Fy
134 0

[学习资料] 大规模高性能计算系统主动容错优化方法研究 [推广有奖]

  • 0关注
  • 13粉丝

已卖:2492份资源
好评率:99%
商家信誉:一般

讲师

21%

还不是VIP/贵宾

-

威望
1
论坛币
450 个
通用积分
4055.6007
学术水平
-4 点
热心指数
-2 点
信用等级
-4 点
经验
-6874 点
帖子
0
精华
0
在线时间
421 小时
注册时间
2018-9-15
最后登录
2026-1-27

楼主
W160730202752Fy 发表于 2025-1-15 18:23:01 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
大规模高性能计算系统主动容错优化方法研究
近年来,为了应对各应用领域飞速增长的计算能力需求,高性能计算HPC(High Performance Computing)系统的规模不断增大导致可靠性问题逐渐凸显,容错已成为新型HPC系统的必备能力。然而,系统规模增长导致故障率增加的同时,又会引起容错开销不断增大。
如何解决容错导致HPC系统实际性能大幅下降的问题,已成为高性能计算面临的主要挑战之一。基于故障预测对可能出现的故障进行提前处理的容错方式被称为主动容错。
与被动容错相比,主动容错能够降低相关容错操作的执行频率,在容错开销方面具备一定优势。随着HPC系统规模进一步增大,由于缺乏高效的主动故障处理方法PA(Proactive Action)和相应的优化策略,现有主动容错方法的开销依然不理想。
本文面向大规模HPC系统,对主动容错的开销优化方法进行了研究。本文的主要贡献和创新点有:1.提出了一种基于预测故障类型的主动容错方法PTFPF。
针对PTFPF的优化问题,提出了开销平衡的PA选择策略OBPASS以及收益感知的两级主动检查点存储策略GTPCS。由于HPC系统会发生多种类型的故障,且 ...
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:方法研究 大规模 高性能 performance Performan

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-3 04:06