大规模高性能计算系统主动容错优化方法研究
近年来,为了应对各应用领域飞速增长的计算能力需求,高性能计算HPC(High Performance Computing)系统的规模不断增大导致可靠性问题逐渐凸显,容错已成为新型HPC系统的必备能力。然而,系统规模增长导致故障率增加的同时,又会引起容错开销不断增大。
如何解决容错导致HPC系统实际性能大幅下降的问题,已成为高性能计算面临的主要挑战之一。基于故障预测对可能出现的故障进行提前处理的容错方式被称为主动容错。
与被动容错相比,主动容错能够降低相关容错操作的执行频率,在容错开销方面具备一定优势。随着HPC系统规模进一步增大,由于缺乏高效的主动故障处理方法PA(Proactive Action)和相应的优化策略,现有主动容错方法的开销依然不理想。
本文面向大规模HPC系统,对主动容错的开销优化方法进行了研究。本文的主要贡献和创新点有:1.提出了一种基于预测故障类型的主动容错方法PTFPF。
针对PTFPF的优化问题,提出了开销平衡的PA选择策略OBPASS以及收益感知的两级主动检查点存储策略GTPCS。由于HPC系统会发生多种类型的故障,且 ...


雷达卡


京公网安备 11010802022788号







