楼主: 大多数88
1680 44

[量化金融] EM算法与经济学中的随机控制 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

67%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
70.7797
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23294 点
帖子
3809
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
大多数88 在职认证  发表于 2022-5-26 22:43:26 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《EM Algorithm and Stochastic Control in Economics》
---
作者:
Steven Kou, Xianhua Peng, Xingbo Xu
---
最新提交年份:
2016
---
英文摘要:
  Generalising the idea of the classical EM algorithm that is widely used for computing maximum likelihood estimates, we propose an EM-Control (EM-C) algorithm for solving multi-period finite time horizon stochastic control problems. The new algorithm sequentially updates the control policies in each time period using Monte Carlo simulation in a forward-backward manner; in other words, the algorithm goes forward in simulation and backward in optimization in each iteration. Similar to the EM algorithm, the EM-C algorithm has the monotonicity of performance improvement in each iteration, leading to good convergence properties. We demonstrate the effectiveness of the algorithm by solving stochastic control problems in the monopoly pricing of perishable assets and in the study of real business cycle.
---
中文摘要:
推广了广泛用于计算最大似然估计的经典EM算法的思想,我们提出了一种用于求解多周期有限时域随机控制问题的EM控制(EM-C)算法。新算法采用蒙特卡罗模拟,在每个时间段以前后向的方式依次更新控制策略;换句话说,在每次迭代中,算法在模拟中向前,在优化中向后。与EM算法类似,EM-C算法在每次迭代中都具有性能改进的单调性,因此具有良好的收敛性。通过求解易逝性资产垄断定价中的随机控制问题和实际经济周期的研究,证明了该算法的有效性。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--
一级分类:Mathematics        数学
二级分类:Optimization and Control        优化与控制
分类描述:Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学,线性规划,控制论,系统论,最优控制,博弈论
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> EM_Algorithm_and_Stochastic_Control_in_Economics.pdf (807.9 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:随机控制 EM算法 经济学 Optimization Quantitative

沙发
mingdashike22 在职认证  发表于 2022-5-26 22:43:33
EM算法与随机控制不经济性*彭显华+徐兴波2016年11月6日摘要概括了广泛用于计算最大似然估计的经典EM算法的思想,我们提出了一种用于解决多周期有限时间随机控制问题的EM控制(EM-C)算法。新算法在每个时间段内通过蒙特卡罗模拟以前后向的方式依次更新控制策略;换言之,该算法在每次迭代中向前模拟,向后优化。与EM算法类似,EM-C算法在每次迭代中都具有性能改善的单调性,因此具有良好的收敛性。我们通过解决易逝性资产垄断定价中的随机控制问题和实际经济周期的研究,证明了该算法的有效性。关键词:EM算法、随机控制、递归模型、动态规划、垄断定价、实际经济周期、数值方法、随机逼近JEL分类:C44、C61、C63、D4、E3*新加坡国立大学风险管理学院和数学系,新加坡恒梅坑台21号。电子邮件:matsteve@nus.edu.sg.+香港九龙清水湾香港科技大学数学系。电子邮件:maxhpeng@ust。香港美国纽约哥伦比亚大学工业工程与运营研究系,邮编:10027。电子邮件:xx2126@columbia.edu.1引言1.1动机和主要结果随机控制问题广泛应用于宏观经济学(例如,真实商业周期的研究)、微观经济学(例如,效用最大化问题)和市场营销(例如,易腐资产的垄断定价)。这些控制问题可能是有限的时间范围。

藤椅
nandehutu2022 在职认证  发表于 2022-5-26 22:43:37
然而,由于最优控制策略不一定是静态的,因此有限时间随机控制问题比相关的有限时间随机控制问题更困难。通常必须借助数值方法来找到此类有限时间随机控制问题的解。由于维数的原因,通常很难用数值方法解决此类问题,尤其是在高维和复杂的随机动力学中。为了克服这些困难,在本文中,我们试图通过蒙特卡罗模拟来解决实时ho-RizontoCastic控制问题。更准确地说,我们提出了一种新的算法,EM控制(EM-C)算法,该算法使用蒙特卡罗模拟以向前向后的方式在每个时间段内顺序更新控制策略;换言之,在每次迭代中,算法在模拟中向前,在优化中向后。我们通过解决易逝性资产垄断定价和实际经济周期研究中的随机控制问题,证明了该算法的有效性。我们的算法源自不同领域的一种算法,即经典的期望最大化(EM)算法(Dempster、Laird和Rubin(1977)),该算法广泛用于计算缺失数据或潜在变量的最大似然估计(MLE)。在每次迭代中,EM算法首先根据前一次迭代的参数计算缺失数据的条件分布,然后根据刚更新的条件分布最大化全似然函数的期望值,以获得更新的参数。

板凳
mingdashike22 在职认证  发表于 2022-5-26 22:43:40
有趣的是,EM算法可以看作是一种在每次迭代中交替最大化一个具有一个分布参数和一个序数参数的目标函数的算法:分布参数是丢失数据的条件分布,普通参数是原始MLE问题的参数;参见第2.1节。我们的EM-C算法推广了EM算法的思想,用于解决多周期有限时间范围的随机控制问题,其中每个时间段都有对应的控制策略。EM-C算法是一种迭代算法,它在每一步操作中更新对应于一个时间段的一个控制策略。EM-C算法继承了EM算法的精神,通过优化仅在该时间段内与控制策略相关的目标函数,在给定时间段内更新控制策略,并且在算法迭代过程中,所有其他时间段的控制策略都固定在最新状态。新的EM-C算法与现有算法的区别在于四个方面:(i)与EM算法类似,所提出的EM-C算法在每次迭代时都具有性能改进的单调性,这使得EM-C算法具有良好的收敛性。(ii)EM-C算法不假设状态演化的特定动力学(即不限于随机过程的特定设置),正如EM算法可以应用于广泛的概率分布一样。

报纸
何人来此 在职认证  发表于 2022-5-26 22:43:43
(iii)EM-C算法不使用Bellman方程;相反,文献中的许多数值算法依赖于Bellman方程或其近似。(iv)与许多现有算法不同,EM-C算法处理有限时间范围的随机控制问题,其中最优策略不一定是平稳的。1.2文献综述由于EM算法是统计学中被引用最多的算法之一,因此该算法有许多扩展;例如,参见Wei和Tanner(1990年)、Meng和Rubin(1993年)、Gu和Li(1998年)以及Lange(2010年,第13章)中的评论。EM算法允许一般分布假设,并具有单调收敛的优点(Wu(1983))。经济学中有大量关于随机控制的文献。Hansen和Sargent(2013)详细讨论了可以解析求解Bellman方程的随机控制问题。Ljungqvist和Sargent(2013)讨论了动态规划方法及其对经济学中各种问题的应用。Judd(1998)、Miranda和Fackler(2002)提供了解决经济学中随机控制问题的递归方法的综合处理。Stokey、Lucas和Prescott(1989)描述了许多建模理论的例子。这里有一些Bellman方程可能不适用的随机控制问题。

地板
mingdashike22 在职认证  发表于 2022-5-26 22:43:46
例如,当一般控制问题(6)中的效用函数不可时间分离时,则此类问题可能没有Bellman方程。使用动态规划和其他递归方法的经济学问题,包括最优经济增长、资源提取、委托代理问题、公共财政、企业投资、资产定价、要素供应和产业组织。Flemming和Soner(2005)深入讨论了连续时间随机控制问题及其应用。Kushner和Dupuis(2001)对利用马尔可夫链解决连续时间随机控制问题的数值方法进行了极好的综述。对于数学金融中连续时间随机控制问题的数值解也有很多研究;参见,例如,Zhang(2004年)、Bouchard和Touzi(2004年)、Crisan、Manolarakis和Touzi(2010年)、Fahim、Touzi和Warin(2011年)、Kharro ubi、Langreneé和Pham(2013a)、Kharroubi、Langreneé和Pham(2013b)以及Guo、Zhang和Zhuo(2012年),等等。这些研究大多集中于特定的随机过程,例如离散化扩散过程或Lévy过程,但我们的EM-C算法可以应用于一般的随机过程。此外,我们的方法是一种基于仿真的方法,适用于高维问题。近似动态规划(ADP)已被开发用于处理三个维度诅咒的来源:高维状态空间、控制策略空间和随机冲击空间;参见鲍威尔(2011)和贝特塞卡斯(2012)的著作。

7
nandehutu2022 在职认证  发表于 2022-5-26 22:43:49
ADP算法可以大致分为两类:价值迭代和策略迭代。大多数ADP算法都是数值迭代算法,它采用Bellman方程来近似值函数。当值函数可以很好地逼近时,这些算法是有效的,但否则就不能保证值函数改进的单调性。作为替代,策略迭代算法会跟踪策略,而不是值函数。在每个周期,基于先前估计的策略计算值函数,然后在策略空间内进行改进。值迭代和策略迭代ADP算法可能不会对每次迭代的值函数进行单调改进。ADP也在计算机科学中以强化学习的名义发展(参见Sutton和Barto(19 98))。许多ADP算法专注于有限时间范围内的问题,其中最优值函数和策略是平稳的。相比之下,我们的EM-C算法关注的是有限时间范围的问题,即最优值函数和最优策略都不是平稳的。值函数迭代与随机动态规划的对偶方法密切相关;参见Brown、Smith和Sun(2010)、Brown和Smith(2014)、Brown和Haugh(2014)。我们的算法与策略迭代DP算法相关,但本质上不同,主要在于:(i)EM-C算法不使用Bellman方程;(ii)EM-C算法对每次迭代的值函数有单次改进;(iii)EM-C算法可以应用于目标函数不可时间分离的一般控制问题。ADP与模拟美式期权定价问题密切相关。

8
能者818 在职认证  发表于 2022-5-26 22:43:54
Broadie和Glasserman(1997)为美式期权定价开发了一种隐式近似动态规划算法,该算法为随机抽样树中的每个分支分配相等的权重。Longstaff和Schwartz(2001)以及Tsitiklis和Van Roy(2001)在一组基函数上将模拟与回归相结合,以开发价值函数的低维近似;它们与Broadie和G la sserman(2004)中介绍的Stocastic网格方法有关,并对应于网格权重的隐式选择。更多讨论请参见Glasserman(2004年,第8章)。马尔可夫决策过程的文献主要研究具有有限状态空间或有限控制空间的多周期随机控制问题。马尔可夫决策过程也有基于模拟的算法;参见Chang、Fu、Hu和Marcus(2007)和Gosavi(2015)的著作,以了解全面的回顾和讨论。这些算法与我们的EM-C算法之间的主要区别是:(i)EM-C算法在每次迭代中都是单调的;(ii)EM Calgorithm不使用Bellman方程。论文的其余部分组织如下。在第2节中,我们提出了EM算法。在第3节中,我们展示了EM-C算法在每次迭代中改进了objectivefunction,因此具有良好的收敛性。在第4节中,我们提出了一种基于仿真和Stocastic近似算法的EM-C算法的实现。第5节和第6节分别介绍了EM-C算法在机票垄断定价和实际商业周期垄断定价中的两个应用。2 EM控制(EM-C)算法2.1 EM算法假设我们观察随机向量z的数据z,但不观察随机向量Y的数据。假设X=(Y,Z)的联合概率密度函数由p(Y,Z |θ)给出,θ为参数。

9
nandehutu2022 在职认证  发表于 2022-5-26 22:43:59
Z的概率密度函数由p(Z |θ)给出。参数θ的最大似然估计是通过最大化对数似然L(θ)=对数p(z |θ)得到的。从初始估计θ开始,在第k次迭代时,EM alg算法更新θk-1通过两个步骤得到θkb:1。E步骤:计算qk(y)=p(y | z,θk-1) ,这是给定观测数据a z和参数估计θk的缺失数据y的条件密度-1来自上一次迭代。2.M步骤:将θkt设置为最大化seqk的θ[log p(y,z |θ)]:=^log p(y,z |θ)qk(y)dy,其中Eqk表示在条件分布qk下对y的期望。Neal和Hinton(1999)提供了EM算法的另一种观点,其中E步和M步都在最大化(或至少不减少)相同的目标函数。事实上,定义函数F(q,θ)asF(q,θ):=等式[对数p(y,z |θ)]+H(q)=对数p(y,z |θ)q(y)dy+H(q),(1)其中H(q):=-\'log q(y)·q(y)dy是概率密度q的熵。Neal和Hinton(1999,定理1)表明,在第k次迭代时,EMalgorithm的E步和M步等价于1。E步骤:将qkt设置为arg maxqF(q,θk-1) 。2、M步:将θkt设置为arg maxθF(qk,θ)。因此,在每次迭代中,EM算法首先将目标函数F(q,θ)最大化(仅针对t o q且θ固定),然后将F(q,θ)最大化(仅针对θ且q固定)。EM算法允许(Y,Z)的非常一般的分布假设;italso在每次迭代中都具有单调性,因此具有良好的收敛性(Wu(1983))。2.2多周期有限时域随机控制问题现在,我们考虑一个一般的多周期有限时域随机控制问题,该问题考虑了向量值控制策略、向量值状态和向量值随机冲击。

10
nandehutu2022 在职认证  发表于 2022-5-26 22:44:02
设Nc为控制策略的维度,Ns为状态的维度。假设有T个时段,在时段0,决策者观察初始状态s∈ Rns。在第tth阶段,决策者为州ZF服务∈ RNS然后选择nc尺寸控制ct∈ σ(st),由st生成的sigma字段。因此,政策CTI适用于截至t期的可用信息,并且可以表示为st的函数。因为sis知道0期,c期∈ RNCI也是确定性的。对于t≥ 1,我们假设ct=c(t,st,θt),t≥ 1,(2)其中c(·)是一个函数,θt=(θt,1,θt,2,…,θt,d)′∈ Rdi是第tth个周期的参数向量。例如,可以假设策略cti由一组基函数线性跨越,即ct:=Pdi=1θt,iφt,i(st),t≥ 1,式中{φt,i:Rns→ Rnc,i=1,d} 是第tth个周期的基函数集。状态st+1由控制ct通过以下状态演化方程st+1=ψt+1(st,ct,zt+1),(3)确定,其中ψt+1(·)是状态演化函数,zt+1∈ Rnzi是表示(t+1)t h周期内随机冲击的随机向量。在本文中,我们假设初始状态为已知的每iod 0。事实上,如果sis rando m在一个问题中,我们可以简单地将该问题中的周期0设为周期1,然后该问题的随机sin就变成了我们的问题公式。(3)中的状态演化动力学是一个一般的动力学,不限于离散化的扩散过程或列维过程。在时段0,决策者希望选择最优控制c∈ RNC和控制参数的顺序θ,θT-1,它确定控件c。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 18:55