楼主: 何人来此
1404 32

[量化金融] 马尔可夫决策过程中的随机比较静力学 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-14 11:38:28
我们说f:Rn→ 如果x,R增大≥ y表示f(x)≥ f(y)。让D 其中rsi是从S到R的所有函数的集合。当u和u是(S,B(S))上的概率度量时,我们写uDuifZSf(s)u(ds)≥所有Borel可测函数f的ZSf(s)u(ds)∈ 使得积分存在。在本文中,我们将关注两个重要的随机序:一阶随机优势序和凸随机序。当D是所有递增函数的集合时,我们写ustu并说u一阶随机支配u。如果D是S上所有凸函数的集合,我们写uCXu并表示u在凸随机序中占主导地位。如果D是所有递增和凸f函数的集合,我们写uICXu。类似ly,对于p,p∈ Ep,我们写pDpifZSf(s′)p(s,a,ds′)≥所有Borel可测函数f的ZSf(s′)p(s,a,ds′)∈ D R和所有(s,a)∈ S×A这样的集合存在。如果D是所有递增f函数、凸函数、凸函数和递增函数的集合,我们写pstp,pCXp和p分别为ICXp。关于随机序的全面覆盖及其应用,请参见M¨uller和Stoyan(2002)以及Shaked和Shanthikumar(2007)。定义1(i)我们说p∈ EPI单调如果对于每一个递增函数f(s′)p(s,a,ds′)在(s,a)中递增。(ii)我们说p∈ 对于每一个共凸函数f,f(s′)p(s,a,ds′)在(s,a)中是凸的。(iii)定义Pi(s,B)=:Pi(s,g(s,ei),B)。让D 我们说,如果f∈ D表示RSF(s′)Pi(s,ds′)∈ D、 如果D是所有递增函数、凸函数、凸函数和递增函数的集合,我们可以分别说,Piis i-preserving、CX-preserving和ICX-preserving。3主要结果在本节中,我们得出了我们的主要结果。在第3.1节中,我们提供了随机比较静力学结果。

12
能者818 在职认证  发表于 2022-6-14 11:38:31
在第3.2节和第3.3节中,我们提供了MDP原语的条件,以保证比较静力学和随机比较静力学的结果。3.1随机比较静力学在本节中,我们提供了确保随机比较静力学的条件。我们的方法是找到一些条件,这些条件意味着,无论何时,在绝对约束下产生的状态动态都会支配在绝对约束下产生的状态动态 e、 定理1表明,如果Pis是D-保持且P(s,·)DP(s,·)适用于所有s∈ S、 然后utDut对于所有t∈ N、 定理1的证明可以在M¨uller和Stoyan(2002)的第5章中找到,作者研究了一般马尔可夫链的随机比较。为了完整性,由于我们的设置略有不同,我们在本文的其余部分提供了定理1的证明,所有函数都假定为可积函数。完整性附录。本文其余部分的重点是找出MDP原语的有效条件,以便应用定理1。推论1和定理2提供了Pto保持D和P(s,·)的充分条件DP(s,·),当D是递增函数集或递增凸函数集时。本节中的结果需要对策略功能和MDP原语进行调整。在第3.2节和第3.3节中,我们提供了依赖于模型原语的比较静态和随机比较静态结果(例如,转移概率和单周期支付函数)。定理1 Let(E,) 是偏序集且设D R.Let e,e∈ 假设E e、 假设Pis是D-保持的,P(s,·)DP(s,·)f或ALL∈ S

13
可人4 在职认证  发表于 2022-6-14 11:38:33
然后utDut对于所有t∈ N、 如果p=p=p和(E,) 是一个影响代理决策的部分有序集,定理1产生了一个简单的随机比较静力学结果。推论1表明,如果g(s,e)在e中增加,g(s,e)在s中增加,并且p单音,那么Et(g(e))≥ Et(g(e))每当e e、 当e是一组介于0和1之间的所有可能的贴现系数,或是一组包含影响单期支付函数的参数时,该结果很有用(见第3.2节)。推论1 Let e,e∈ 假设E e、 假设g(s,e)对于所有s都是递增的∈ S、 g(S,e)在S中增加,p=p=p,p是单调的。网络(g(e))≥ 所有t的Et(g(e))∈ N和每个初始状态s(1)∈ S、 在一些动态项目中,我们有兴趣了解初始状态的变化将如何影响DM在未来时期的决策。Corolla r y 2表明,如果政策函数在系统状态下增加,且过渡概率函数为monot 1,则高初始状态会导致更高的预期决策。证明遵循与推论1证明相同的论点。回想一下,我们用s(1)表示初始状态。定理1的一个类似结果站ICXcan见于Huggett(2004)、Adlakha和Johari(2013)、Balbus等人(2014)和Acemoglu和Jensen(2015)。推论2包括除初始状态si(1),i=1,2外等效的两个MDP。假设s(1)≥ s(1),g(s)在s中是递增的,p是单调的。ThenEt(g(s(1)))≥ 所有t的Et(g(s(1)))∈ N、 现在,我们导出了关于控制状态动力学的传递概率函数的随机比较静力学结果。定理2的第(i)部分提供了确保pSTP表示Et(g(p))≥ 所有t的Et(g(p))∈ N

14
能者818 在职认证  发表于 2022-6-14 11:38:37
第(ii)部分提供了确保pCXpimplies Et(g(p))≥ 所有t的Et(g(p))∈ N、 在第4节中,我们将这些结果应用于各种常用的动态优化模型。定理2设p,p∈ Ep。(i) 假设pis单调,g(s,p)在s中增加,g(s,p)≥ 所有s的g(s,p)∈ S、 然后是pSTP表示Et(g(p))≥ 所有t的Et(g(p))∈ N、 (ii)假设pis单调且凸,g(s,p)在s和g(s,p)中是递增且凸的≥ g(s,p)表示所有s∈ S、 然后是pCXP适用于Et(g(p))≥所有t的Et(g(p))∈ N、 3.2贴现因子或支付函数的变化在本节中,我们为状态变量中政策函数的单调性以及MDP其他参数中政策函数的单调性提供了充分条件,包括贴现因子和影响单周期支付函数的参数。第3.1节中的随机比较静力学结果依赖于这些单调性。因此,我们提供了模型原语的条件,以确保随机比较静力学结果。状态变量中策略函数的单调性符合Topkis(2011年2月)中提供的模型原语的条件。我们注意到,这些条件对于推导有关政策函数的单调性结果是不必要的,在某些特定应用中,人们仍然可以使用不同的技术或在不同的假设下推导这些单调性结果。回想一下函数f:S×E→ 据说R在(s,e)上的差异越来越大,例如,见Lovejoy(1987)和Hopenhayn和Prescott(1992)。

15
可人4 在职认证  发表于 2022-6-14 11:38:39
参见alsoSmith和McCardle(2002),了解保证值函数单调且差异递增的条件。S×E如果所有E,E∈ E和s,s∈ 因此,e eand s公司≥ s、 我们有(s,e)- f(s,e)≥ f(s,e)- f(s,e)。如果-f的差异越来越大。A组B∈ 如果S,则称B(S)为上集∈ B和s≥ 简单s∈ B、 转移概率p∈ 如果p(s,a,B)对于每个上限集B的差异都在增加,则Ephas随机增加差异。关于具有随机增加差异的转移概率的示例,请参见Topkis(2011)。如果s≥ s、 b类∈ G(s)和b′∈ G(s)表示max{b,b′}∈ G(s)和min{b,b′}∈ G(s)。在第八部分,如果G是上升的,那么min G(s)和max G(s)是递增函数。Topkis(2011)提供了最优政策对应G上升的条件。这些条件总结在以下假设中:假设1(i)r(s,a)在s中增加,并且差异越来越大。(ii)p是单调的,具有随机增加的差异。(iii)对于所有s,s∈ S、 S≤ 单纯形Γ(s) Γ(s)。定理3表明,在假设1下,政策函数g(s,β)在贴现因子中增加。此外,如果单期支付函数r(s,a,c)依赖于某个参数c,且差异越来越大,则政策函数在参数c中增加。定理3假设假设1成立,且Γ(s)上升。(i) 设0<β≤ β< 1. T h en g(s,β)≥ g(s,β)表示所有s∈ S和d Et(g(β))≥所有t的Et(g(β))∈ N、 (ii)让c∈ E是影响pa yo fff函数的参数。

16
kedemingshi 在职认证  发表于 2022-6-14 11:38:42
如果绩效函数(s、a、c)在(a、c)和(s、c)中的差异越来越大,那么g(s、c)≥ g(s,c)全部∈ S、 和Et(g(c))≥ 所有t的Et(g(c))∈ N当e r c c、 3.3转移概率函数的变化在本节中,我们研究与转移函数变化相关的随机比较静力学结果。我们提供了过渡函数和支付函数的条件,以确保pSTP包含比较静力学结果和随机比较静力学结果。我们假设函数Pi的表达式为Pi(s,a,B)=Pr(m(s,a,)∈ B) 对于所有B∈ B(S),其中是一个具有定律和支持V的随机变量 Rk。定理4提供了函数m的条件,这意味着在随机优势意义下,当v较高时,政策函数较高。在第4.3节中,我们提供了一个受控随机游动的n个示例,其中满足条件onm。定理4假设pi(s,a,B)=Pr(m(s,a,i)∈ B) 其中m是凸的、递增的、连续的,并且在(s,a)、(s,)和(a,)中具有递增的差异;ihas the lawvi,i=1,2。r(s,a)是凸的,在s中增加,并且具有越来越大的差异。对于ALL,s∈ S、 我们有eΓ(S)=Γ(S)。如果vstvthen(i)g(s,p)≥ g(s,p)表示所有s∈ S和g(S,p)在S.(ii)Et(g(p))中增加≥ 所有t的Et(g(p))∈ N、 4应用在本节中,我们将我们的结果应用于经济学和运筹学文献中的几个动态优化模型。4.1投资理论文献广泛研究了调整成本资本积累模型的资本积累(Stokey和Lucas,1989)。我们考虑具有调整成本的标准研发资本积累模型(Hopenhayn和Prescott,1992)。在该模型中,企业在有限的期限内最大化其预期贴现利润。

17
大多数88 在职认证  发表于 2022-6-14 11:38:45
单期收入取决于需求和公司资本。需求以马尔可夫的方式在外生进化。在每个期间,公司决定下一期间的资本水平,并产生调整成本,这取决于当前资本水平和下一期间的资本水平。利用前一节中的随机比较静力学结果,我们发现了确保未来高需求(在一阶随机支配意义上)增加预期长期资本积累的条件。我们提供以下详细信息。考虑一家最大化其预期贴现利润的公司。该公司的单周期支付函数r由r(s,a)=r(s,s)给出- c(s,a),其中s=(s,s)。收入函数R取决于外生需求冲击∈ S 注册护士-1、当前公司股本∈ S R+。状态空间由S=S×S给出。需求冲击遵循马尔可夫过程和传递函数Q。企业选择下一期的资本存量a∈ Γ(s)a并产生c(s,a)的调整成本。转移概率函数p由p(s,a,B)=1D(a)Q(s,C)给出,其中D×C=B,D是R中的可测集,C是Rn中的可测集-1,Q是S上的aMarkov核 注册护士-很容易看出,如果Q是monoto-ne,那么p(s,a,B)=1D(a)Q(s,C)是单调的,并且Q标准模板pstp。假设收入函数R是连续的,差异越来越大,c是连续的,差异越来越小,而Γ(s)是上升的。在这些条件下,Hopenhayn和Prescott(1992)证明,如果Q是单调的,则策略函数g(s,p)在s中是递增的。此外,如果QstQ,然后是g(s,p)≥ g(s,p)forall s(见Hopenhayn和Prescott(1992)的推论7)。因此,定理2中的第(i)部分包括Et(g(p))≥ 所有t的Et(g(p))∈ N、 命题1设Qand Qs是S上的两个马尔可夫核。

18
kedemingshi 在职认证  发表于 2022-6-14 11:38:48
假设R是连续的,差异越来越大,c是连续的,差异越来越小,Γ(s)是连续的,Γ(s)是连续的 Γ(s′)每当s≥ s′。假设q是单调的,thatQstQ。那么,在qt条件下,预期资本积累高于Q条件下,即Et(g(p))≥ 所有t的Et(g(p))∈ N、 4.2具有参考效应和不确定性记忆因子的动态定价在本节中,我们考虑具有参考效应的动态定价模型,如Popescu和Wu(2007)所述。在该模型中,需求对公司的定价历史非常敏感。特别是,消费者形成了影响其需求的参考价格。正如Popescu和Wu(2007)所述,我们认为是一个利益最大化的单一城市,在有限的时间范围内拥有同质的重复客户流。在每个时期,垄断者决定一个价格a∈ A:=[0,A]以吸引消费者。为简单起见,假设t血液边缘成本为0。由此产生的单周期支付函数为g iven byr(s,a)=aD(s,a),其中s∈ S R是当前参考价格,D(s,a)是需求函数,它取决于参考价格s和垄断收费a的价格。我们假设函数D(s,a)是连续的、非负的、p递减、s递增、差异递增,并且在s中是凸的。如果当前参考价格为s,且公式设定了a的价格,则下一期的参考价格由γs+(1)给出- γ) a(参见Opescu和Wu(2007),了解该结构微观基础的详细信息)。γ被称为记忆因子。与Popescu和Wu(2007)的模型相比,我们假设记忆因子γ不是确定性的。更准确地说,我们假设记忆因子γ是[0,1]上的一个随机变量,定律为v。因此转移概率f函数p由p(s,a,B)=v{γ给出∈ [0,1]:(γs+(1- γ) (a)∈ B} 对于a ll B∈ B(S)。

19
mingdashike22 在职认证  发表于 2022-6-14 11:38:52
我们表明,即使记忆因子γ是一个随机变量,Popescu和Wu(2007)的结果也符合预期,即长期预期价格在当前参考价格的基础上增加。我们还表明,折扣因子的增加会增加当前最优价格和长期预期价格。命题2假设函数D(s,a)是连续的、非负的、在p中递减的、在s中递增的和凸的,h是递增的差。(i) 参考价格中的最优定价po l i c y g(s)在增加。(ii)初始参考价格较高时,每个时期的预期最优价格较高。(iii)0<β≤ β<1表示g(s,β)≥ g(s,β)表示所有s∈ S和Et(g(β))≥所有t的Et(g(β))∈ N、 4.3受控随机游动受控随机游动用于研究受控排队系统和其他应用概率现象(例如,见Serfozo(1981))。在本节中,我们考虑R上的一个简单受控随机游动。在任何时期,系统的状态∈ R确定当前期间的奖励c(s)。下一个周期的状态由m(s,a,)=a+s+给出,其中是一个具有定律v和支持v的随机变量 R、 安达∈ A是DM选择的动作。因此,该过程演化为随机游动+加上DM的动作a。当DM选择动作a时∈ A、 产生c(A)的成本。我们假设 R是紧集,c(s)是增凸函数,cis是增函数。也就是说,在系统的状态下,报酬和边际报酬都在增加,而在DM选择的行动中,成本也在增加。单周期支付函数由r(s,a)=c(s)给出- c(a)和转移概率函数由p(s,a,B)=v{给出∈ 五:a+s+∈ B} 对于所有B∈ B(R)。

20
mingdashike22 在职认证  发表于 2022-6-14 11:38:55
在这种情况下,当选择行动a时,DM f会在当前支付和未来支付之间进行以下权衡:虽然选择更高的行动a会带来更高的当前成本,但它会增加系统状态在下一个时期变得更好的可能性,因此,更高的行动会增加未来获得更高回报的可能性。我们研究随机变量的变化如何影响DM当前和未来的最优决策。当c(s)是凸的且在s中增加时,很容易看出过渡函数m(s,a,)=a+s+,单周期函数r(s,a)=c(s)-c(a)满足定理4的条件。因此,下列命题的证明紧随定理4。命题3假设pi(s,a,B)=Pr(a+s+i∈ B) 其中ihas the law vi,i=1,2。假设c(s)是凸的,并且在s中增加。假设vstv。然后g(s,p)≥ g(s,p)表示所有s∈ S、 g(S,p)在S中增加,Et(g(p))≥所有t的Et(g(p))∈ N、 4.4平稳分布的比较平稳均衡是描述大型动态经济体的许多模型的首选解决方案概念(此类模型的示例见Acemoglu和Jensen(2015))。在这些模型中,这里是代理的连续体。每个代理都有一个单独的状态,并在给定一些参数e(通常是价格)的情况下解决一个折扣动态规划问题。参数由所有代理的聚合决策重新确定。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-11 18:10