楼主: 可人4
1046 31

[量化金融] 金融蒙特卡罗的张量处理单元 [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

76%

还不是VIP/贵宾

-

威望
10
论坛币
15 个
通用积分
49.1643
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24465 点
帖子
4070
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
可人4 在职认证  发表于 2022-6-24 03:07:41 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Tensor Processing Units for Financial Monte Carlo》
---
作者:
Francois Belletti, Davis King, Kun Yang, Roland Nelet, Yusef Shafi,
  Yi-Fan Chen, John Anderson
---
最新提交年份:
2020
---
英文摘要:
  Monte Carlo methods are critical to many routines in quantitative finance such as derivatives pricing, hedging and risk metrics. Unfortunately, Monte Carlo methods are very computationally expensive when it comes to running simulations in high-dimensional state spaces where they are still a method of choice in the financial industry. Recently, Tensor Processing Units (TPUs) have provided considerable speedups and decreased the cost of running Stochastic Gradient Descent (SGD) in Deep Learning. After highlighting computational similarities between training neural networks with SGD and simulating stochastic processes, we ask in the present paper whether TPUs are accurate, fast and simple enough to use for financial Monte Carlo. Through a theoretical reminder of the key properties of such methods and thorough empirical experiments we examine the fitness of TPUs for option pricing, hedging and risk metrics computation. In particular we demonstrate that, in spite of the use of mixed precision, TPUs still provide accurate estimators which are fast to compute when compared to GPUs. We also show that the Tensorflow programming model for TPUs is elegant, expressive and simplifies automated differentiation.
---
中文摘要:
蒙特卡罗方法对定量金融中的许多常规程序至关重要,如衍生工具定价、对冲和风险度量。不幸的是,蒙特卡罗方法在高维状态空间中运行模拟时,计算成本非常高,在金融行业中,蒙特卡罗方法仍然是一种首选方法。最近,张量处理单元(TPU)提供了相当大的加速,并降低了在深度学习中运行随机梯度下降(SGD)的成本。在强调了用SGD训练神经网络和模拟随机过程之间的计算相似性之后,我们在本文中询问TPU是否足够准确、快速和简单,可以用于金融蒙特卡罗。通过对这些方法关键特性的理论提醒和深入的实证实验,我们检验了TPU在期权定价、对冲和风险度量计算方面的适用性。特别是,我们证明,尽管使用了混合精度,TPU仍然提供了准确的估计量,与GPU相比,计算速度更快。我们还表明,TPU的Tensorflow编程模型优雅、富有表现力,并简化了自动区分。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Distributed, Parallel, and Cluster Computing        分布式、并行和集群计算
分类描述:Covers fault-tolerance, distributed algorithms, stabilility, parallel computation, and cluster computing. Roughly includes material in ACM Subject Classes C.1.2, C.1.4, C.2.4, D.1.3, D.4.5, D.4.7, E.1.
包括容错、分布式算法、稳定性、并行计算和集群计算。大致包括ACM学科类C.1.2、C.1.4、C.2.4、D.1.3、D.4.5、D.4.7、E.1中的材料。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Statistics        统计学
二级分类:Computation        计算
分类描述:Algorithms, Simulation, Visualization
算法、模拟、可视化
--

---
PDF下载:
--> Tensor_Processing_Units_for_Financial_Monte_Carlo.pdf (874.77 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:蒙特卡罗 蒙特卡 Quantitative Similarities Applications

沙发
可人4 在职认证  发表于 2022-6-24 03:07:46
Monte CarloFrancois Belletti、Davis King、Kun Yang、Roland Nelet、Yusef Sha fi、Yi Fan Chen、John AndersonGoogle ResearchMountain View金融张量处理单元CAUSAbelletti@google.comAbstract-蒙特卡罗方法对于定量金融中的许多常规至关重要,如衍生品定价、对冲和风险度量。不幸的是,蒙特卡罗方法在高维状态空间中运行模拟时的计算成本非常高,在金融行业中,蒙特卡罗方法仍然是一种首选方法。最近,张量处理单元(TPU)在深度学习中提供了相当大的加速,并降低了运行随机梯度下降(SGD)的成本。在强调用SGD训练神经网络和模拟随机过程之间的计算相似性后,我们在本文中询问TPU是否准确、快速且简单,足以用于金融蒙特卡罗。通过对这些方法关键特性的理论提醒和彻底的实证实验,我们检验了TPU在期权定价、对冲和风险度量计算方面的能力。特别是,我们证明,尽管使用了混合精度,但TPU仍然提供了准确的估计器,与GPU相比,TPU的计算速度更快。我们还展示了TPU的Tensor Flow编程模型是优雅、表达力强且简单的自动差异化模型。指数术语财务蒙特卡罗、模拟、张量处理单元、硬件加速器、TPU、GPUI。机器学习社区已经开发了几种技术来加速用于深度学习的随机梯度下降算法,包括新的编程范式、专用硬件和线性代数计算框架。本文证明,同样的技术可以加速金融应用中随机过程的蒙特卡罗积分。A.

藤椅
mingdashike22 在职认证  发表于 2022-6-24 03:07:50
金融和保险中的蒙特卡罗估计在为金融工具(保险或投机)定价时,一个关键问题是估计概率空间定义的平均结果(Ohm, F、 P):EP[F(ω)],其中Edente表示期望值。在下文中,我们首先对衍生品定价进行基本介绍。也就是说,在随机过程产生随机波动的情况下,我们专注于使用蒙特卡罗方法估计期望值。我们描述了硬件加速器如何通过并行化更快地计算此类估计器。1) 连续时间内的随机过程:随机过程仍然是用于建模金融资产价格的主要抽象。考虑过滤概率空间(Ohm, F、 F,P)(其中F={Ft}是相应的正则滤波)支持q维布朗运动W和随机微分方程(SDE)dXt=u(t,Xt)dt+σ(t,Xt)dWt,t∈ [0,T]。(1) 漂移(u)和波动率(σ)函数分别取Rp和Rp,q中的值。通过定义,等式(1)的强解(X)是取Rp中的值的过程,Rts=0||b(s,Xs)| |+| |σ(s,Xs)||ds几乎肯定是单位dxt=X+Ztb(s,Xs)ds+Ztσ(s,Xs)dWs,t∈ [0,T]。假设Xis是一个具有有限方差独立于W的随机变量,且| | b(·,0)| | |和| |σ(·,0)| |是平方可积的(作为t的函数),则存在一个| | b(t,x)- b(t,y)| |+| |σ(t,x)-σ(t,y)||≤ K | | x- y | |对于所有x,y∈ RPA和t∈ [0,T]保证了[0,T]上存在这样一个强解。

板凳
能者818 在职认证  发表于 2022-6-24 03:07:53
更现代的模型通常会引入跳跃或随机波动,这为相应的模拟增加了真实性,但不会从根本上改变基本的计算模式。2) 金融和保险中的蒙特卡罗方法:蒙特卡罗方法依赖模拟和数值积分来估计历史或风险中性概率(分别为P和Q)下的EP[f(XT)]或EQ[f(XT)]。一些金融衍生品合约可能会指定路径依赖性结果,如障碍期权或亚洲期权,在这种情况下,Black、Scholes和Merton的理论仍然引导我们估计EP[f(X0:T)]或EQ[f(X0:T)],其中X0:T表示在区间[0,T]上观察过程X。一般来说,我们因此寻求类型[f(X0:T)]的期望的估计量,其中(Xt)在[0,T]上解(1)。(2) 蒙特卡罗方法依赖于数值离散和积分,以模拟轨迹的经验平均值形式产生(2)的估计量nexn0,T | i=1。编号:bIN=NNXn=1feXn0,T. (3) 一般来说,由于(Xt)的动力学是用实际值指定的不连续时间,基于计算机的模拟将受到来自有限精度数字表示和更重要的时间离散的偏差。蒙特卡罗估计量的方差也是一个问题:通常,若产生一个置信区间大小为1的结果需要花费O(N)个样本,则将该区间的大小减少到 成本为O(N)模拟。这种收敛速度可以加快,这要归功于准随机蒙特卡罗方法【18】、【19】、【30】、【34】,这种方法可以实现近似线性的收敛速度。不幸的是,当考虑(Xt)的不同分量之间的相关性时,计算时间通常按asO(q)(即在空间中按二次方)缩放。

报纸
大多数88 在职认证  发表于 2022-6-24 03:07:56
出于这些原因,蒙特卡罗方法仍然是金融行业中经常大规模运行的一些计算密集型任务。加速蒙特卡罗估值并使其更具成本效益一直是衍生品定价、对冲和风险评估的一个长期挑战。3) 希腊语和敏感性分析:定量金融中的蒙特卡罗方法也用于估计衍生品价格对模型参数和当前市场状态的敏感性。对市场参数的敏感性——金融“希腊人”【15】——不仅用于量化风险,还用于构建对冲和综合复制投资组合【15】、【30】。蒙特卡罗价格的自动微分(也称为AAD)现在是定量金融中的一种选择解决方案,因为它在计算上比跳跃式计算方法更有效,例如计算许多不同输入和参数的灵敏度【33】。张量流的设计核心是自动微分,因为这种技术通常被称为“反向传播”,对于通过随机梯度下降训练机器学习模型至关重要。此外,Tensor Flow ReadyYo通过使研究人员能够利用GPU和TPU等现代硬件,提供了在不需要任何额外代码的情况下加速模拟和自动微分的机会。B、 贡献在本文中,我们将重点放在利用张量处理单元(TPU)和张量流来实现金融蒙特卡罗方法。我们的目的是证明,虽然此类加速器的设计主要是通过随机梯度下降来加速深度学习模型的训练,但TPU为涉及离散化多变量随机过程的蒙特卡罗方法提供了前沿性能。

地板
mingdashike22 在职认证  发表于 2022-6-24 03:07:59
特别是,我们提出了以下贡献:o我们证明,尽管本机在矩阵乘法中使用的数值精度有限,但在对数值精度敏感的蒙特卡罗方法的各种应用中,可以获得准确的估计我们对TPU的速度进行基准测试,并将其与构成现场可编程门阵列(FPGA)和基于应用特定集成电路(ASIC)的解决方案之外的通用蒙特卡罗方法的主要加速来源的PU进行比较我们表明,张量流量[2]构成了一个高水平、灵活和简单的界面,可用于利用TPU的计算能力,同时支持自动微分。本文证明,Tensor FLOW构成了一个灵活的编程API,可以实现不同的模拟例程,同时通过在TPU上的云中运行计算提供实质性的优势。一个重要的结果是,过去对开发人员来说是迭代的体验现在变得具有交互性和内在的可扩展性,而无需投资任何软件或硬件。我们相信这些改进可以使财务风险管理更具成本效益、灵活性和反应性。二、相关工作a。定价技术和典型计算工作量作为加速的第一步,我们现在研究三种典型的计算工作量,它们通常用于定价衍生品和评估定量金融中的风险。1) Euler-Maruyama离散化方案中SIMD元素级标量运算:第一个特征计算工作量与单变量几何布朗模型及其以局部[11]、[17]或随机波动率模型[4]、[12]的形式扩展相关。Euler-Maruyama格式将SDE(1)在时间上显式向前离散。

7
何人来此 在职认证  发表于 2022-6-24 03:08:02
考虑N条独立轨迹的模拟,eXnti+1=eXnti+uti,eXntiti+σti,eXntiptiZni+1对于n=1,N其中,nT=X∈ Rti=ti+1-ti,Zni+1是分布在N(0,1)之后的伪随机数。然后,模拟减少为标量加法/乘法,这在模拟场景中是独立的,因此作为单一指令多数据(SIMD)设置的一个明显例子,它是令人尴尬的并行,其中数据的不同元素进行独立计算。如果可以正确地并行生成伪随机数或准随机数(分别为PRN和QRN)[8]、[18]、[19]、[26]、[32]、[34]、[35],则此类模拟对于跨模拟场景的并行化来说是微不足道的。整个样本的平均减少量结束了任务。2) 相关过程的多变量模拟中的矩阵乘法运算:标量随机过程的Euler-Maruyama离散化模式自然扩展到多变量设置,其中每个随机过程的值为∈ 然而,一个主要的计算差异出现了。如果基本布朗运动在Rq中,则每个场景中的每个计算时间步都需要计算√ti+1- tiσti,eXntiZni+1和Zni+1~ N(0,Iq)和σti,eXnti∈ Rp,q,这意味着必须计算p×q矩阵/向量积。如果N个场景堆叠在一起以从相应的硬件加速中获益,则操作将成为p×q,q×N矩阵/矩阵产品。

8
kedemingshi 在职认证  发表于 2022-6-24 03:08:05
在这里,最终的减少平均模拟结果。3) Longstaff-Schwartz估值方法(LSM)中的链式线性系统反演:Longstaff和Schwartz[25]提出的基于回归的估值方法为美式期权定价,已成为可赎回金融工具(如美式或百慕大期权)的标准定价方法,这些金融工具具有高维度的详细信息(如股票的最大组合或加权组合)。在可赎回期权的设置中,可在到期前的多个时间点进行操作,定价问题可使用蒙特卡罗方法来模拟未来的轨迹,并使用动态规划方法来及时回溯最优决策。为了启用动态规划,对于每个决策时刻ti,classicapproach是在底层:Xti7的状态上估计一个值函数→ Vti(Xti)=最大值f(Xti),E(Vti+1 | Xti)按照VT=f(XT)的约定,其中f是option\'spayoff函数。由于条件期望E(Vti+1 | Xti)是与Xti(根据Lnorm)最接近的平方可积随机变量,因此LSM建立了一个模型,在Xti的值之间插值(Vti+1 | Xti),实际上已经模拟出来了。LSM在一组K特征上采用线性回归,这些K特征来自于Xtisuchas的模拟值(1,Xti,Xti,…)或在模拟值下计算的有限个Hermite多项式【15】、【25】。给定一组模拟值nexnti | n=1。否,值集SNVeXnti公司|n=1。Nois投影到gressorsnψ集上eXnti公司, . . . , ψKeXnti公司, |n=1。无处(ψk)k=1。。。Kare特征化函数(例如,Hermite多项式)。因此,对于每个候选时间步,需要将N个标量观测值线性回归到K维的N个向量上。

9
可人4 在职认证  发表于 2022-6-24 03:08:08
通常,为了提高效率,将计算文法学家的aCholesky分解,以有效地解决线性回归问题。这一计算成本增加了模拟基础资产所在区域的原始路径的成本,这些路径本身可能相互关联。整个程序产生的价格估计值为第一次行使时的预期价值函数:bIN=NPNn=1VeXnt公司. 因此,LSM的结论是平均约化。B、 先前存在的硬件加速策略回顾了财务蒙特卡罗的核心算法,现在我们概述了减少运行时间的基于硬件的技术。加速蒙特卡罗方法的第一种方法是在高性能计算(HPC)CPU网格上使用消息传递接口(MPI)等并行化范例运行蒙特卡罗方法。这里,我们重点讨论使用硬件加速器的设备级加速,如果需要,这些硬件加速器可以用作分布式计算网格的元素。1) GPU:使用CUDA或OpenCL在GPU上进行科学计算的通用高级API的兴起,促使了基于GPU的方法的广泛发展,以加速蒙特卡罗方法。由于MonteCarlo方法令人尴尬的并行性,以及它们使用计算密集的线性代数例程,金融中的定价和估计风险度量尤其适合GPU加速。正确地并行生成PRN和QRN【8】、【18】、【26】、【32】、【35】,再加上算法重因子分解以充分利用GPU,使得相对于CPU而言,在定价【3】、【24】、【27】、【31】、风险度量【9】和敏感性分析【10】方面实现了巨大的速度。2) FPGA:许多研究表明,现场可编程门阵列(FPGA)相对于GPU实现提供了显著的加速,并降低了服务器的能源成本。

10
nandehutu2022 在职认证  发表于 2022-6-24 03:08:12
虽然一些方法采用了FPGA作为独立解决方案【36】、【37】,但其他方法使用了混合精度方法,同时依赖CPU和FPGA【5】、【6】。特别是,多层蒙特卡罗(MLMC)[14]可应用于FPGA计算低分辨率快速模拟,并与以参考精度运行的CPU配对。三、 张量处理单元张量处理单元(“云TPU”或“TPU”)—一种专门用于深度学习的定制开发应用程序专用集成电路(ASIC),在其最新版本中提供每秒420×10浮点运算(FLOPS)和128GB的高带宽内存(HBM)。TPUarchitecture抽象在张量流框架后面。在没有使用TPU详细知识的情况下编写的高级Tensor Flow程序可以部署在云中的TPU硬件上,以训练或服务于深层神经网络。[20] 报告了令人印象深刻的训练加速和低延迟延绳预测。尽管TPU以深度学习为目标,但它足以解决各个领域的计算挑战。在本文中,我们详细介绍了它在金融蒙特卡罗中的应用。A、 TPU系统架构一个TPU由四个独立的芯片组成。每个芯片由两个称为张量核的计算核组成。如图1所示,TensorCore由标量、向量和矩阵单元(MXU)组成。此外,16 GB片上高带宽内存(HBM)与最新一代CloudTPU v3的每个Tensor核相关联。多核之间的通信通过高带宽互连实现。每个张量核中的所有计算单元都经过优化,以执行矢量化操作。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-15 05:49