楼主: 大多数88
859 18

[量化金融] 使用多个GPU实现聚合风险分析的加速 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

67%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
71.0197
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23294 点
帖子
3809
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
大多数88 在职认证  发表于 2022-4-29 16:56:42 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Achieving Speedup in Aggregate Risk Analysis using Multiple GPUs》
---
作者:
A. K. Bahl, O. Baltzer, A. Rau-Chaplin, B. Varghese and A. Whiteway
---
最新提交年份:
2013
---
英文摘要:
  Stochastic simulation techniques employed for the analysis of portfolios of insurance/reinsurance risk, often referred to as `Aggregate Risk Analysis\', can benefit from exploiting state-of-the-art high-performance computing platforms. In this paper, parallel methods to speed-up aggregate risk analysis for supporting real-time pricing are explored. An algorithm for analysing aggregate risk is proposed and implemented for multi-core CPUs and for many-core GPUs. Experimental studies indicate that GPUs offer a feasible alternative solution over traditional high-performance computing systems. A simulation of 1,000,000 trials with 1,000 catastrophic events per trial on a typical exposure set and contract structure is performed in less than 5 seconds on a multiple GPU platform. The key result is that the multiple GPU implementation can be used in real-time pricing scenarios as it is approximately 77x times faster than the sequential counterpart implemented on a CPU.
---
中文摘要:
用于分析保险/再保险风险组合的随机模拟技术,通常被称为“总体风险分析”,可以从开发最先进的高性能计算平台中获益。本文探讨了并行方法来加速支持实时定价的总风险分析。针对多核CPU和多核GPU,提出并实现了一种聚合风险分析算法。实验研究表明,相对于传统的高性能计算系统,GPU提供了一种可行的替代方案。在多个GPU平台上,在不到5秒钟的时间内,在一个典型的暴露集和契约结构上模拟1000000次试验,每次试验1000次灾难性事件。关键的结果是,多个GPU实现可以用于实时定价场景,因为它比在CPU上实现的顺序对应物快大约77倍。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Distributed, Parallel, and Cluster Computing        分布式、并行和集群计算
分类描述:Covers fault-tolerance, distributed algorithms, stabilility, parallel computation, and cluster computing. Roughly includes material in ACM Subject Classes C.1.2, C.1.4, C.2.4, D.1.3, D.4.5, D.4.7, E.1.
包括容错、分布式算法、稳定性、并行计算和集群计算。大致包括ACM学科类C.1.2、C.1.4、C.2.4、D.1.3、D.4.5、D.4.7、E.1中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Computational Engineering, Finance, and Science        计算工程、金融和科学
分类描述:Covers applications of computer science to the mathematical modeling of complex systems in the fields of science, engineering, and finance. Papers here are interdisciplinary and applications-oriented, focusing on techniques and tools that enable challenging computational simulations to be performed, for which the use of supercomputers or distributed computing platforms is often required. Includes material in ACM Subject Classes J.2, J.3, and J.4 (economics).
涵盖了计算机科学在科学、工程和金融领域复杂系统的数学建模中的应用。这里的论文是跨学科和面向应用的,集中在技术和工具,使挑战性的计算模拟能够执行,其中往往需要使用超级计算机或分布式计算平台。包括ACM学科课程J.2、J.3和J.4(经济学)中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Data Structures and Algorithms        数据结构与算法
分类描述:Covers data structures and analysis of algorithms. Roughly includes material in ACM Subject Classes E.1, E.2, F.2.1, and F.2.2.
涵盖数据结构和算法分析。大致包括ACM学科类E.1、E.2、F.2.1和F.2.2中的材料。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Risk Management        风险管理
分类描述:Measurement and management of financial risks in trading, banking, insurance, corporate and other applications
衡量和管理贸易、银行、保险、企业和其他应用中的金融风险
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:风险分析 GPU Applications Experimental Catastrophic

沙发
kedemingshi 在职认证  发表于 2022-4-29 16:56:49
使用多个GPUsA实现总体风险分析的加速。K.Bahl,O.Baltzer,A.Rau Chaplin,B.Vargheaseand A.Whiteway安全、理论和算法研究中心,海得拉巴国际信息技术研究所,印度分析实验室,达尔豪西大学计算机科学学院,哈利法克斯,加拿大数据实验室,英国苏格兰圣安德鲁斯大学计算机科学学院。kumar@research.iiit.ac.inobaltzer,arc@cs.dal.ca, varghese@st-安德鲁斯。ac.uk,亚伦。whiteway@dal.caAbstract-用于分析保险/再保险风险组合的随机模拟技术通常被称为“总风险分析”,可以从开发最先进的高性能计算平台中获益。本文探讨了加速聚合风险分析以支持实时定价的并行方法。针对多核CPU和多核GPU,提出并实现了一种总风险分析算法。实验研究表明,相对于传统的高性能计算系统,GPU提供了一种可行的替代方案。在多个GPU平台上,在不到5秒钟的时间内,在一个典型的曝光集和合约结构上模拟1000000次试验,每次试验1000个灾难性事件。关键的结果是,多个GPU实现可以用于实时定价场景,因为它比在CPU上实现的顺序对应物快大约77倍。GPU计算;总体风险分析;巨灾事件风险;实时pricingI。简介风险分析领域的大规模模拟[1]、[2]都是数据密集型和计算密集型的。他们可以从利用高性能计算的进步中获益。

藤椅
大多数88 在职认证  发表于 2022-4-29 16:56:53
虽然大量金融工程应用,例如[3]、[4]受益于高性能计算的发展,但利用并行性的保险和再保险应用相对较少。在本文中,我们探讨了组合风险管理以及实时保险和再保险合同定价所需的综合风险分析[5]、[6]的并行方法及其实现。总风险分析是对保险人或被保险人持有的风险组合进行蒙特卡罗模拟的一种形式,而不是对单个风险进行模拟。portfoliomay包含数万份合同,涵盖与地震、飓风和洪水等灾难性事件相关的风险。通常,合同具有“除外损失”(XL)[7]结构,可为单个事件事件提供保险,最高限额为指定限额,由被保险人选择保留,或为多个事件提供保险,最高限额为指定总限额,由被保险人选择保留,或两者的组合。聚合风险分析模拟中的每个试验都代表了灾难性事件的发生情况,以及它们在预定期间(即合同年)内发生的顺序,以及它们将如何与复杂的风险条件相互作用以产生聚合损失。从计算角度来看,总风险分析模拟不同于其他蒙特卡罗模拟,因为试验是预先模拟的,而不是随机生成的。这提供了一个合同年的数百万备选视图,包括数千个事件,这些事件被预先模拟为一个年事件表(尚未)。

板凳
大多数88 在职认证  发表于 2022-4-29 16:56:57
从分析的角度来看,一个预先模拟的模型有助于进行统计验证,并对季节性和集群效应进行调整。尽管这样的模拟为精算师和决策者提供了一致的视角来查看结果,但在实现有效的并行化方面仍存在重大挑战。如果要在有限的内存带宽下实现合理的计算速度,必须在处理核心之间小心地共享非常大的内存。有了输入,即尚未、一组合同和一组事件损失表,聚合分析的输出就是年度损失表(YLT)。从YLT中,保险人或are保险人可以得出重要的投资组合风险指标,如可能最大损失(PML)[8],[9]和风险总价值(TVaR)[10],[11],用于内部风险管理和向监管机构和评级机构报告。本文首先提出了一种顺序聚合风险分析算法,并在aCPU上用C++实现,然后在多核CPU上用C++和OpenMP并行实现,在多核GPU平台上用C++和CUDAO并行实现。

报纸
能者818 在职认证  发表于 2022-4-29 16:57:02
算法必须以年度事件表和事件损失表的形式接收大量数据,因此,需要考虑在有限的内存中有效组织输入数据,以及确定并行度以实现加速的问题。针对这个问题,在单一GPU方法上的初步努力[12]实现了一些速度提升,但没有评估一些更重要的GPU优化方法[13],[14]。本文对GPU的共享内存和全局内存进行了优化,如分块、循环展开、降低所用变量的精度,以及使用内核注册表来提高GPU的速度;结果是,在由一个CPU和四个GPU组成的multipleGPU上并行实现的最大速度比在一个CPU上连续实现的最大速度提高了77倍。结果表明,在实时定价场景中,在multipleGPUs上使用聚合风险分析是可行的。本文介绍的实现是在大规模传统集群和超级计算机上实现的具有成本效益的高性能计算解决方案。GPU的实现充分利用了高水平的并行性,一些快速共享内存访问的优势,但令人惊讶的是,GPU的机器体系结构所提供的快速数值性能几乎没有优势。本文的其余部分组织如下。第二节介绍了总体风险分析算法及其输入和输出。第三节讨论了该算法在多核CPU和多核GPU上的实现。第四节重点介绍了从算法性能分析中获得的结果。第五节对算法和实验结果进行了比较和对比。

地板
nandehutu2022 在职认证  发表于 2022-4-29 16:57:06
第六部分通过对未来工作的思考,总结全文。二、总风险分析本节考虑了总风险分析的输入和算法。分析总风险的程序有三个输入。第一个输入是从随机事件目录中预模拟事件发生的数据库,称为年度事件表(Y ET)。任何给定年份可能发生的灾难事件序列定义为Y ET中的记录为“试验”(Ti)。事件序列由一组元组定义,元组包含事件ID及其在trialTi={(Ei,1,ti,1),…,(Ei,k,ti,k)}中出现的时间戳,该时间戳按时间戳值升序排列。一个典型的但可能包含数千到数百万次试验,根据覆盖多个试验的全球事件目录,每个试验可能有大约800到1500对“事件时间戳”。Y-ET表示为asY-ET={Ti={(Ei,1,Ti,1),…,(Ei,k,Ti,k)},其中i=1,2。k=1,2,800- 1500第二个输入是特定事件及其相应损失的集合,与被称为事件损失表(ELT)的暴露集有关。一个事件可能是多个ELT的一部分,并与每个ELT中的不同损失相关。例如,一个ELT可能包含来自一个暴露集的损失,而另一个ELT可能包含来自不同暴露集的相同事件但不同的损失。每个ELT都有自己的元数据,包括有关货币兑换率的信息和适用于每个单独事件损失级别的术语。ELT中的每个记录都表示为事件损失seli={Ei,li},与ELT相关的财务术语表示为元组I=(I,I,…)。

7
mingdashike22 在职认证  发表于 2022-4-29 16:57:10
非典型聚合分析可能涉及10000个ELT,每个ELT包含10000-30000个事件损失,例外情况下,甚至高达2000000个事件损失。ELT表示为ELT=以利={Ei,li},I=(I,I,…),当i=1,2,10, 000 - 30000第三个输入是层,表示为L,它覆盖一组层术语下的ELT集合。每个层定义一个再保险合同,并包含两个属性。首先,层覆盖的ELT E={ELT,ELT,…,ELTj}集合,其次,层术语,表示为T=(TOccR,TOccL,TAg gR,TAg gL),定义了合同条款。一个典型层覆盖大约3到30个独立的ELT。层表示为asL=E={ELT,ELT,…,ELTj},T=(TOccR,TOccL,TAg gR,TAg gL),当j=1,2,3.- 30.集合分析的算法(算法1中显示的第1-32行)包括两个阶段。在第一阶段,即预处理阶段,数据(Y-ET、E-ET和L)被加载到本地内存中。在第二阶段,对每一层进行四步模拟,并对每一次试验进行模拟,得出一年损失稳定(Y LT)。第4-7行显示了第一步,在该步骤中,确定了试验的每个事件及其在与该层相关的ELT集合中的相应事件损失。第8-10行显示了第二步,其中一组财务条款适用于从ELT中提取的每个事件损失对。换句话说,在这一步中,合同财务条款适用于该层的利益。为此,特定事件的净财务条款I的损失在所有ELT中累积为第11-13行中显示的单个事件损失。线路号。

8
能者818 在职认证  发表于 2022-4-29 16:57:15
15-20显示了第三步,在该步骤中,试验中每个事件发生的事件损失,结合与该层相关的所有ELT,受发生条款(i)事件保留,表示为TOccR,是被保险人对单个事件损失的保留或免赔额,以及(ii)发生限额,表示为ASOCCL,这是保险人将为超过自留额的事故损失支付的限额或保险范围。发生率术语适用于独立于试验中任何其他事件的个别事件发生。他们将个别合同条款视为发生的特定事件。事件损失减去发生期后,将累积为给定试验的单个总损失。算法1综合风险分析1:程序ARA(Y ET,ELT,L)2:适用于所有a∈ L do3:为了所有的b∈ Y和do4:所有c∈ (埃尔∈ a) do5:为了所有人∈ (Et)∈ b) do6:xd<= E∈ 艾尔∈ f、 f在哪里∈ELT和(EL)∈ f) =c7:结束8:全部d∈ (Et)∈ b) do9:lxd<= 申请财务条款(一)10:结束11:全部d∈ (Et)∈ b) do12:loxd<= loxd+lxd13:结束14:结束15:全部d∈ (Et)∈ b) do16:loxd<= 最小值(最大值)-TOccR,0),TOccL)17:结束18:全部d∈ (Et)∈ b) do19:loxd<=dPi=1LOX20:21结束:所有d∈ (Et)∈ b) do22:loxd<= 最小值(最大值)-标记gR,0),标记gL)23:结束24:全部d∈ (Et)∈ b) do25:loxd<= 洛克斯- l-oxd-126:结束27:全部d∈ (Et)∈ b) do28:lr<= lr+loxd29:end for 30:end for 31:end for 32:end procedureLine no.21-29显示了第四步,在该步骤中,总计条款(i)总计保留,表示为TAg gR,是被保险人对年度累积损失的保留或免赔额,以及(ii)总计限额,表示为TAg gL,这是保险人将支付的年度累计损失超过总保留额的限额或保险范围。

9
kedemingshi 在职认证  发表于 2022-4-29 16:57:18
聚合术语适用于层的试验聚合损耗。与发生项不同,聚合项适用于试验中发生损失的累计总和,因此结果取决于试验中前一事件的顺序。当合同属性应用于多个事件时,此行为将捕获合同属性。扣除总条款后的总损失称为试验损失或年度损失,并作为总分析的结果存储在年度损失表(YLT)中。该算法将为每个试验提供一个总损失值,在第28行中表示为lr。然后对总损失值应用财务函数或过滤器。三、 实验研究实验研究在三个硬件平台上顺序和并行执行聚合风险分析。首先,采用了多核CPU,其规格为3.40 GHz四核Intel(R)core(TM)i7-2600处理器,内存容量为16.0 GB。该处理器每个核心有256 KB的二级缓存,8 MB的三级缓存,最大内存带宽为21 GB/秒。在这个平台上实现了聚合风险分析算法的顺序和并行版本。顺序版本是用C++实现的,而并行版本是用C++和OpenMP实现的。

10
何人来此 在职认证  发表于 2022-4-29 16:57:21
这两个版本都是使用GNU编译器Collectiong++4.4和\'-O3\'格式编译的。其次,NVIDIA Tesla C2075 GPU由448个处理器核(14个流式多处理器,每个处理器有32个对称多处理器)组成,每个处理器的频率为1.15 GHz,全局内存为5.375 GB,平均带宽为144 GB/秒,用于聚合风险分析算法的GPU实现。峰值双精度浮点数性能为515克浮点数,而峰值单精度浮点数性能为1.03吨浮点数。第三,一个由四个Nvidia Tesla M2090 GPU组成的多GPU平台,每个GPU由512个处理器核(由14个流式多处理器组成,每个处理器有32个对称多处理器)和5.375 GB内存组成,内存带宽为177 GB/秒,用于实现本文报告的最快聚合风险分析算法。峰值双精度浮点数性能为665克浮点数,峰值单精度浮点数性能为1.33吨浮点数。CUDA用于聚合风险分析算法的基本GPU实现和优化实现。实现了算法的五种变体,它们是:(i)顺序实现,(ii)多核CPU的并行实现,(iii)并行GPU实现,(iv)GPU上的优化并行实现,以及(v)多GPU上的优化并行实现。在所有的实现中,都使用了一个线程pertrial,Tid。从性能角度来看,关键的设计决策是选择用于表示事件损失表(ELT)的数据结构。ELT本质上是由键值对组成的字典,基本要求是支持快速随机键查找。对层的响应被实现为直接访问表。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-24 12:50