楼主: 何人来此
1435 32

[量化金融] 马尔可夫决策过程中的随机比较静力学 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.8012
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24593 点
帖子
4128
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
何人来此 在职认证  发表于 2022-6-14 11:37:42 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Stochastic Comparative Statics in Markov Decision Processes》
---
作者:
Bar Light
---
最新提交年份:
2020
---
英文摘要:
  In multi-period stochastic optimization problems, the future optimal decision is a random variable whose distribution depends on the parameters of the optimization problem. We analyze how the expected value of this random variable changes as a function of the dynamic optimization parameters in the context of Markov decision processes. We call this analysis \\emph{stochastic comparative statics}. We derive both \\emph{comparative statics} results and \\emph{stochastic comparative statics} results showing how the current and future optimal decisions change in response to changes in the single-period payoff function, the discount factor, the initial state of the system, and the transition probability function. We apply our results to various models from the economics and operations research literature, including investment theory, dynamic pricing models, controlled random walks, and comparisons of stationary distributions.
---
中文摘要:
在多周期随机优化问题中,未来的最优决策是一个随机变量,其分布取决于优化问题的参数。我们分析了在马尔可夫决策过程中,这个随机变量的期望值是如何作为动态优化参数的函数变化的。我们把这种分析称为随机比较静力学。我们推导了{比较静力学}结果和{随机比较静力学}结果,表明当前和未来的最优决策如何随单期支付函数、贴现因子、系统初始状态和转移概率函数的变化而变化。我们将我们的结果应用于经济学和运筹学文献中的各种模型,包括投资理论、动态定价模型、受控随机游动和平稳分布的比较。
---
分类信息:

一级分类:Mathematics        数学
二级分类:Optimization and Control        优化与控制
分类描述:Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学,线性规划,控制论,系统论,最优控制,博弈论
--
一级分类:Economics        经济学
二级分类:General Economics        一般经济学
分类描述:General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载:
--> Stochastic_Comparative_Statics_in_Markov_Decision_Processes.pdf (296.1 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:马尔可夫 决策过程 静力学 Optimization distribution

沙发
能者818 在职认证  发表于 2022-6-14 11:37:48
马尔可夫决策过程中的随机比较静力学*2020年1月28日摘要:在多周期随机优化问题中,未来最优决策是一个随机变量,其分布取决于优化问题的参数。我们分析了在马尔可夫决策过程中,这个随机变量的期望值是如何作为动态优化参数的函数变化的。我们称这种分析为随机比较静力学。我们得出了比较静态结果和随机比较静态结果,表明当前和未来的最优决策如何随着单期支付函数、贴现因子、系统初始状态和转移概率函数的变化而变化。我们将我们的结果应用于经济学和运筹学文献中的各种模型,包括投资理论、动态定价模型、受控随机游走和平稳分布的比较。关键词:马尔可夫决策过程,比较静力学,随机比较静力学。MSC2000主题分类:90C40OR/MS主题分类:主要:动态规划/最优控制*斯坦福大学商学院,斯坦福,加利福尼亚州94305,美国。电子邮件:barl@stanford.edu1引言在经济学和运筹学研究中,一个广泛问题的兴趣在于优化问题的解对其参数是否单调。对这个问题的分析叫做比较静力学。继托普基斯的开创性工作(托普基斯,1978年)之后,比较静力学方法在经济学和运筹学文献中受到了极大的关注。虽然比较静力学方法通常适用于静态优化问题,但也可以应用于动态优化问题。

藤椅
大多数88 在职认证  发表于 2022-6-14 11:37:51
特别是,这些方法可用于研究PolicyFunction如何随系统当前状态或动态优化问题的其他参数而变化。也就是说,对于多周期优化模型,可以使用比较静力学方法来确定当前周期的最优决策相对于优化问题的参数是如何变化的。例如,在马尔可夫决策过程中,在支付函数和转移函数的适当条件下,可以应用比较静态方法来表明,当系统状态固定时,最优决策在贴现因子中增加。但是,由于该模型是动态的,并且包含不确定性,在不同的贴现因子s下,统计数据的演变是不同的,因此,即使当前最优决策在固定状态下的贴现因子中增加,未来最优决策是否在贴现因子中增加也不清楚。从时段1的角度来看,时段t>1中系统的状态是一个随机变量,因此,时段t中的最优决策取决于时段t中系统的状态,是给定时段1中可用信息的随机变量。本文在马尔可夫决策过程(MDP)的背景下,分析了t期内最优决策的期望值作为优化问题参数的函数是如何变化的。我们称这种分析为草率的比较静力学。更准确地说,让(E,) 是包含MDP某些参数的偏序集。

板凳
kedemingshi 在职认证  发表于 2022-6-14 11:37:59
ForSee Topkis(2011),了解比较静力学方法的综合处理。例如,见李卡尔齐和维诺特(1992年)、米尔格罗姆和香农(1994年)、阿西(2002年)、埃切尼克(2002年)、安东尼亚杜(2007年)、夸赫(2007年)、夸赫和斯特鲁洛维奇(2009年)、西莱(2013年)、诺切蒂(2015年)、王安和李(2015年)、巴塞尔和萨巴尔瓦尔(2018年)以及科赫(2019年)。M¨uller(1997)和Smith and McCardle(2002)研究了最优值函数如何随动态优化问题的参数变化,如单周期支付函数和转移概率函数。相比之下,本文分析了最优策略函数。关于动态优化模型中的比较静态结果,请参见Serfozo(1976)、Lovejoy(1987)、Amir等人(1991)、Hopenhayn和Prescott(1992)、Mirman e t等人(2008)、Topkis(2011)、Krishnamurthy(2016)、Smith和Ulu(2017)、Lehrer和Light(2018)以及Dziewulski和Quah(2019)。例如,E可以是所有转移概率函数的集合、所有折扣因子的集合和/或影响支付函数的参数集合。假设在参数e下∈ 平稳策略函数由g(s,E)给出,其中s是系统的状态。给定策略函数g和系统的初始状态,系统的状态遵循随机过程。假设状态在周期t中的分布由概率度量ut(ds,e)描述。我们感兴趣的是找到条件,以确保周期t中的预期决策,Et(g(e))=Rg(s,e)ut(ds,e)在参数e中增加。预期值Et(g(e))以两种不同的方式解释。从概率的角度来看,Et(g(e))是t期内预期的最优决策,是参数e的函数。

报纸
何人来此 在职认证  发表于 2022-6-14 11:38:08
例如,在投资理论中,该期望值通常表示t期系统中预期的资本积累(Stokey和L ucas,1989)。在库存管理中,它代表t期的预期库存(Krishnan a and Winter,2010),在收入波动问题中,它代表t期的预期财富积累(参见Huggett(2004)和Bommier and Grand(2018))。从确定性的角度来看,如果我们考虑一个事先相同的主体群体,这些主体的状态根据控制状态动态的随机过程独立演化,那么ut表示周期t内状态的经验分布。在这种情况下,Et(g(e))对应于给定参数e的该人口在t期的平均决策。后一种解释在关于平稳平衡模型和平均场平衡模型的不断增长的文献中很常见。在本文献中,虽然重点是平衡分析,但已经获得了一些随机比较静力学结果(见Adlakha和Johari(2013)以及Acemoglu和Jensen(20 15))。这些随机比较静力学结果有助于分析这些模型的平衡。特别是,证明比较静力学结果并建立平衡的唯一性(见Hopenhayn(1992)、Light(20 18b)、Acemoglu和Jensen(201 8)、Light和Weintraub(2019))。本文的目的是在MDP的背景下提供一般的随机比较静力学结果。特别是,我们提供了有关MDP基本要素的各种有效条件,以保证与MDP重要参数(如贴现因子、单期支付函数和过渡概率函数)相关的统计比较静态结果。我们还提供了关于这些参数的新的比较静力学结果。

地板
能者818 在职认证  发表于 2022-6-14 11:38:11
例如,我们表明,在一组标准条件下,这意味着政策函数在该州增加,政策函数也在增加贴现系数(见第3.2节)。我们将我们的结果应用于具有调整成本的资本积累模型(Hopenhayn和Prescott,1992),具有参考效应的动态定价模型(Popescu和Wu,2007),以及控制随机游动。例如,考虑以下受控随机行走st+1=st+at+t+1,其中STI是周期t内系统的状态,atis是周期t内选择的动作,以及{t}∞t=1是独立的随机变量,在时间上分布相同。在每个阶段,决策者都会收到一份奖励,该奖励取决于系统的当前状态,并产生一笔成本,该成本取决于决策者在该阶段选择的行动。在系统状态下,报酬函数是递增的,而在决策者的行为中,成本函数是递增的。决策者的目标是使期望的报酬之和最大化。我们提供了报酬函数和成本函数的有效条件,以保证当随机噪声的分布在随机优势意义上更高时,决策者的当前行动和预期未来行动会增加。由于我们的结果是直观的,并且我们为推导随机比较静力学结果提供的充分条件在一些感兴趣的动态程序中得到了满足,我们相信我们的结果在其他应用中也适用。论文的其余部分组织如下。第2节介绍了动态优化模型。第2.1节介绍了本文中使用的定义和符号。在第3节中。1.我们给出了主要的随机比较静力学结果。

7
何人来此 在职认证  发表于 2022-6-14 11:38:14
第3节。2我们研究贴现率和单期支付函数的变化。在第3.3节中,我们研究了转移概率函数的变化。在第4节中,我们将结果应用于各种模型。在第5节中,我们提供了一个摘要,然后是一个包含证据的附录。2模型在本节中,我们介绍了模型的组成部分和假设。具体而言,我们关注一个标准的折扣动态规划模型,有时称为马尔可夫决策过程。关于动态编程模型的综合处理,请参见Feinberg和Shwartz(2012)以及Puterman(2014)。我们根据元素元组(S、a、Γ、p、r、β)定义了折扣动态编程模型。S RN是一个称为状态空间的Borel集。B(S)是Borelσ-代数 R是动作空间。Γ是S×a的可测子集。对于所有S∈ S、 我们的结果可以应用于其他动态编程模型,如正动态编程和负动态编程。Γ的非空且可测量的s截面Γ(s)是状态中的一组可行操作∈ S、 p:S×A×B(S)→ [0,1]是转移概率函数。也就是说,p(s,a,·)是s上每个(s,a)的概率度量∈ S×A和p(·,·,B)是每个B的可测函数∈ B(S)。r:S×A→ R是一个可测量的单期支付函数。0<β<1是贴现系数。有一定数量的周期t∈ N:={1,2,…}。该过程从某些状态s(1)开始∈ 假设在时间t时,状态为S(t)。决策者(DM)根据s(t)选择动作a(t)∈ Γ(s(t)),并接受支付(s(t),a(t))。下一周期的状态s(t+1)位于B的概率∈ B(S)由p(S(t),a(t),B)给出。设H=S×A,Ht:=H×。×H |{z}t-1倍×S。一个策略σ是一个序列(σ,σ。

8
何人来此 在职认证  发表于 2022-6-14 11:38:18
.) Borel可测函数σt:Ht→ A使得σt(s(1),A(1),s(t))∈ Γ(s(t))对于所有t∈ N和所有(s(1),a(1),s(t))∈ Ht。对于每个初始状态s(1),一个策略σa和一个概率函数p在所有实体历史H的空间上诱导一个概率测度∞.我们用σ表示关于概率测度的期望,用{s(t),a(t)}表示相关随机过程∞t=1。D M的目标是找到一个建议,即马将其预期的折扣支付最大化。当DM遵循策略σ且初始状态为s时∈ S他的预期贴现付款由Vσ(S)=Eσ给出∞Xt=1βt-1r(s(t),a(t))。定义neV(s)=supσVσ(s)。我们称V:S→ R值函数。确定操作员:B(S)→ B(S),其中B(S)是所有函数f:S的空间→ R byT f(s)=最大值∈Γ(s)h(s,a,f),其中h(s,a,f)=r(s,a)+βZSf(s′)p(s,a,ds′)。(1) 在MDP原语的标准假设下,标准动态规划所有有限历史空间上的概率测度H∞由theIonescu Tulcea theore m(有关更多详细信息,请参阅Bertsekas和Shreve(1978年)和Fe inberg(1996年))唯一定义。状态空间和动作空间可以是连续的,也可以是离散的。当我们讨论Swe上的凸函数时,假设S是一个凸集。ming参数表明,值函数V是满足V=V的唯一函数。此外,还存在一个最优平稳策略和最优策略响应g(s)={a∈ Γ(s):V(s)=h(s,a,V)}是非空的,紧值的,上半连续的。定义g(s)=最大g(s)。我们称g(s)为策略函数。

9
何人来此 在职认证  发表于 2022-6-14 11:38:22
对于本文的其余部分,我们假设值函数是唯一的连续函数,满足t V=V,对于每个f,Tnf一致收敛到V∈ B(S),并且策略功能存在。2.1符号和定义在本文中,我们考虑一个参数化动态程序。让(E,) 成为影响DM决策的一部分。我们用E表示E中的一般元素。在本文中,我们略微滥用了符号,并允许在上述函数中进行额外的论证。例如,ParameteredDynamic progr am V的值函数表示为V(s,e)=maxa∈Γ(s,e)h(s,a,e,V)。同样,策略函数用g(s,e)表示;r(s、a、e)是单期支付函数;h(s,a,e,V)是与参数为e的动态程序问题相关的h函数,如上文方程(1)所述。在本文的其余部分中,我们假设epb是所有转移函数p:S×A×B(S)的集合→ [0, 1].当DM遵循策略函数g(s)且初始状态为s(1)时,随机过程(s(t))是马尔可夫过程。(s(t))的转移函数可以由策略函数g和转移函数p描述如下:对于所有B∈ B(S),如果S(1),定义u(B)=1∈ 否则为B和0,u(B)=p(s(1),g(s(1)),B)。u(B)是第二个周期的状态s(2)位于B的概率。对于t≥ 3,定义ut(B)=RSp(s,g(s),B)ut-1(ds)适用于所有B∈ B(S)。那么ut(B)是s(t)位于B中的概率∈ 初始状态为S(1)时,周期t中的B(S)∈ S和DM遵循policy函数g。为了便于标记,我们省略了对初始状态的引用。本文的所有结果都适用于每个初始状态s(1)∈ S、 这些条件通常在应用中得到满足。

10
可人4 在职认证  发表于 2022-6-14 11:38:25
文献中广泛研究了保证值函数存在和连续以及平稳函数存在的条件。参见Hidder等人(2016),了解textboo k治疗。有关最近的结果,请参见Feinberg等人(2016)及其参考文献。我们写uti(B)来表示s位于B中的概率∈ t期间的B(S),whenei∈ E是影响决策者决策的参数,决策者遵循政策函数g(s,ei),i=1,2。对于ei∈ E、 defeneeti(g(ei))=ZSg(s,ei)uti(ds)。正如我们在导言中所讨论的,Eti(g(ei))可以用两种方式来解释。根据第一种解释,从时段1的角度来看,DM在时段t的最优决策是一个随机变量。预期价值Eti(g(ei))是DM在t期的预期决策,因为影响DM决策的参数∈ E、 另一方面,预期值Eti(g(ei))可以解释为一系列面临特殊冲击的DM的决策的总和。在后一种解释中,每个DM都有一个单独的统计数据,并且ut是t期内各州DM的分布。这种解释通常用于平稳均衡模型和平均场均衡模型(详见第4.4节)。我们对以下随机比较静力学问题感兴趣:e eimpliesEt(g(e))≥ 所有t的Et(g(e))∈ N(对于每个初始状态)?我们注意到,对于t=1,随机比较静力学问题简化为比较静力学问题:e eimplies g(s,e)≥ g(s,e)?我们现在介绍一些将在下一节中使用的符号和定义。对于两个元素x、y∈ Rnwe写入x≥ y如果xi≥ yi对于每个i=1。。。,n

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-4 07:21