楼主: 大多数88
1251 59

[量化金融] 错指定马氏决策过程的均衡 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

67%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
70.8997
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23294 点
帖子
3809
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
大多数88 在职认证  发表于 2022-5-7 18:09:24 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Equilibrium in Misspecified Markov Decision Processes》
---
作者:
Ignacio Esponda and Demian Pouzo
---
最新提交年份:
2016
---
英文摘要:
  We study Markov decision problems where the agent does not know the transition probability function mapping current states and actions to future states. The agent has a prior belief over a set of possible transition functions and updates beliefs using Bayes\' rule. We allow her to be misspecified in the sense that the true transition probability function is not in the support of her prior. This problem is relevant in many economic settings but is usually not amenable to analysis by the researcher. We make the problem tractable by studying asymptotic behavior. We propose an equilibrium notion and provide conditions under which it characterizes steady state behavior. In the special case where the problem is static, equilibrium coincides with the single-agent version of Berk-Nash equilibrium (Esponda and Pouzo (2016)). We also discuss subtle issues that arise exclusively in dynamic settings due to the possibility of a negative value of experimentation.
---
中文摘要:
我们研究了马尔可夫决策问题,其中agent不知道将当前状态和行为映射到未来状态的转移概率函数。代理对一组可能的转移函数具有先验信念,并使用贝叶斯规则更新信念。我们允许她被错误地指定,因为真正的转移概率函数不支持她的先验知识。这个问题在许多经济环境中都是相关的,但通常不适合研究人员进行分析。我们通过研究渐近行为使问题易于处理。我们提出了一个平衡概念,并给出了它描述稳态行为的条件。在问题是静态的特殊情况下,均衡与Berk-Nash均衡的单代理版本一致(Esponda和Pouzo(2016))。我们还讨论了一些微妙的问题,这些问题完全是在动态环境中出现的,因为实验可能具有负面价值。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--
一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--

---
PDF下载:
--> Equilibrium_in_Misspecified_Markov_Decision_Processes.pdf (997.76 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:决策过程 马氏决策 econometrics Quantitative equilibrium

沙发
kedemingshi 在职认证  发表于 2022-5-7 18:09:29
误判马尔科夫决策过程中的均衡*Ignacio Esponda Demian Pouzo(WUSTL)(加州大学伯克利分校)2016年5月17日摘要我们研究马尔可夫决策问题,其中代理不知道将当前状态和行为映射到未来状态的转移概率函数。代理对一组可能的转移函数有先验信念,并使用贝叶斯规则更新信念。我们允许她误判,因为真正的转移概率函数不支持她的先验知识。这个问题在许多经济环境中都是相关的,但研究人员通常无法分析。我们通过研究渐近行为使问题易于处理。我们提出了一个平衡概念,并提供了描述稳态行为的条件。在问题是静态的特殊情况下,均衡与伯克-纳什均衡的单一代理版本一致(Esponda和Pouzo,2016)。我们还讨论了一些微妙的问题,这些问题完全是在动态环境中出现的,因为实验可能具有负价值。*我们感谢弗拉基米尔·阿斯里扬、赫克托·查德、陈晓红、埃米利奥·埃斯皮诺、德鲁·福登伯格、布鲁斯·汉森、菲利普·杰希尔、杰克·波特、菲利普·里戈莱特、汤姆·萨金特、伊万·韦宁以及几位研讨会参与者提供的有益意见。Esponda:奥林商学院,圣路易斯华盛顿大学,布鲁金斯大道1号,美国密苏里州圣路易斯市1133号校园信箱,邮编63130,iesponda@wustl.edu;普佐:加州大学伯克利分校经济系,地址:加利福尼亚州伯克利市埃文斯厅530-1号,邮编:94720,dpouzo@econ.berkeley.edu.Contents1简介12马尔可夫决策过程63主观马尔可夫决策过程83.1设置。93.2平衡。103.3正确指定和识别的SMDP。

藤椅
何人来此 在职认证  发表于 2022-5-7 18:09:33
124例134.1动态需求未知的垄断者。134.2不确定未来工作机会的搜索。164.3具有相关冲击的随机增长。205平衡基础226平衡结果297结论32参考文献32附录36在线附录461简介对研究持有错误世界观的代理人行为的早期兴趣(例如,Arrow and Green(1973)、Kirman(1975)、Sobel(1984)、Kagel andLevin(1986)、Nyarko(1991),萨金特(1999年))最近由皮奇奥尼和鲁宾斯坦(2003年)、杰希尔(2005年)、埃斯特和拉宾(2005年)、杰赫兰·科斯勒(2008年)、埃斯邦达(2008年)、埃斯邦达和普佐(2012年、2016年)、埃斯特和皮奇奥尼(2013年)、斯皮格勒(2013年、2016a年、2016b年)、海德休斯等人(2016年)和福登伯格等人(2016年)的研究进行了更新。这种兴趣至少有两个原因。首先,代理对其复杂环境的不确定性是很自然的,并用可能被错误指定的简约参数模型来表示这种不确定性。其次,赋予代理错误指定的模型可以解释行为中的某些偏差是如何作为基元的函数内生产生的。以前的文献主要关注本质上是“静态”的问题,从某种意义上说,它们可以被视为静态问题的重复,在静态问题中,周期之间的唯一联系是因为代理正在学习模型的参数而产生的。然而,动态决策问题在经济学中普遍存在,即代理人选择影响状态变量(而非信念)的行为。本文的主要目标是提供一个易于处理的框架,以研究代理学习可能存在错误模型的动态环境。我们研究了一个马尔可夫决策过程,其中单个代理以离散时间间隔选择操作。

板凳
何人来此 在职认证  发表于 2022-5-7 18:09:38
转移概率函数描述了主体的行为和当前状态如何影响下一阶段的状态。当前的收益是状态和行为的函数。我们假设代理对真实转移概率函数不确定,并希望最大化预期贴现支付。她对一组可能的转移函数有先验信念,她的模型可能存在误判,这意味着我们不需要真正的转移概率函数来支持她先前的模型。在观察到实现状态后,代理使用贝叶斯规则更新herbelief。为了更好地说明主要问题和结果,考虑一个收益未知的动态储蓄问题,其中s是当前收入,x是储蓄的选择,π(s)-x) 是当前消费的回报,下一个时期的收入是提取的。我们将错误定义的模型作为原始模型,并假设代理人在给定模型的情况下学习和行为最佳。相比之下,Hansen和Sargent(2008)研究了偏好稳健性的代理的最佳行为,因为他们意识到模型误判的可能性。从分布Q(·| s,x)。然而,代理不知道返回分布Q。她有一个参数模型,表示由参数θ索引的可能返回分布Qθ的集合∈ Θ. 代理在Θ上有一个先验u,该信念根据当前收入、储蓄决策和下一期实现的收入使用贝叶斯规则更新,u=B(s,x,s,u),其中B表示贝叶斯算子,u表示后验信念。如果代理人之前的支持包括真实的回报分布Q,则该代理人的指定是正确的,否则,该代理人的指定是错误的。

报纸
nandehutu2022 在职认证  发表于 2022-5-7 18:09:41
我们通过以下贝尔曼方程递归地表示这个问题:W(s,u)=maxx∈[0,s]π(s)- x) +Δ^^W(s,u)Qθ(ds | s,x)u(dθ),(1)这个贝尔曼方程的解决定了状态、行为和信念的演化。大量的计算文献提供了一些算法,代理和研究人员可以使用这些算法来近似解决问题,例如(1),其中abelief是状态变量的一部分;参见Powell(2007),了解教科书中的处理方法。然而,经济学家面临的问题是,这些数值方法通常不允许我们对行为做出一般性预测。我们建议通过描述代理的稳定状态行为和信念来规避这个问题。我们要问的主要问题是,我们是否可以用一个信念没有更新的问题,比如v(s)=maxx,来代替一个动态规划问题,比如(1)∈[0,s]π(s)- x) +^V(s)\'Qu*(ds | s,x),(2)其中*代理人对Θ和¨Qu的平衡或稳态信念*=ΘQθu*(dθ)是相应的主观转移概率函数。我们将这个问题称为马尔可夫决策过程(MDP),其转移概率函数为¨Qu*.这种方法的主要优点是,只要我们能够描述平衡*, 它避免了在状态空间中包含信念的需要,从而使问题更易于分析。这种对平衡行为的关注确实是经济学的一个显著特征。我们首先定义了一个平衡的概念,以捕捉稳态行为。当然,我们不希望不太复杂的代理应用这些数值方法。

地板
mingdashike22 在职认证  发表于 2022-5-7 18:09:46
但是,按照文献中的标准观点,对于研究人员来说,动态规划方法仍然是一个有用的工具,可以用来建模一个代理面对跨期交易的行为,以及一个不知道真实转移概率函数的代理的信念。我们将这一概念称为伯克-纳什均衡,因为在环境是静态的特殊情况下,它被简化为伯克-纳什均衡的单代理版本,这是由Esponda和Pouzo(2016)引入的一个概念,用于描述在静态环境中存在错误代理的稳态状态行为。MDP isa中从国家到行动的映射策略;回想一下,信仰不包括在MDP的状态中。对于给定的策略和真实的转移概率函数,MDP中状态和行为的随机过程是一个马尔可夫链,并且具有相应的平稳分布,可以解释为稳态分布。如果存在信念,则策略和相应的平稳分布是Berk-Nash均衡*在参数空间上,这样:(i)对于具有转移概率函数“Qu”的MDP,该策略是最优的*, 和(ii)μ*将概率1放在一组参数值上,这些参数值产生与真实转移概率函数“最接近”的转移概率函数。“最近”的概念由依赖于平衡平稳分布的Kullback-Leibler散度的加权版本给出。我们使用这个框架来回顾三个经典的例子。这些例子说明了我们的框架如何使具有不确定性的动态环境易于分析,并扩展了经典动态规划方法的范围。首先,我们考虑需求函数未知的垄断者的经典问题。

7
能者818 在职认证  发表于 2022-5-7 18:09:50
我们假设需求是动态的,因此当前时期的销售会影响下一时期的销售可能性。然而,垄断者的模型有误,认为需求不是动态的。我们证明,认为需求不是动态的垄断者不一定会设定更高的价格。第二个示例是一个搜索模型,在这个模型中,员工没有意识到,在实际上很难找到另一份工作的时候,她被解雇的概率更高。我们发现,她对找到新工作的机会变得悲观,并以次优的方式接受太低的工资。最后一个例子是一个随机增长模型,沿着(1)所表示的问题。代理人决定每个时期投资多少收入,这与未知的生产过程一起决定下一个时期的收入。我们假设对代理人的能力和生产力都有相关的冲击,但代理人认为这些冲击是独立的。如果这些冲击正相关,那么当生产率较低时,不特定的代理人会将更多的收入投入。她最终低估了生产率,因此低估了均衡投资。然后,我们通过研究贝叶斯代理的限制行为来为伯克-纳什均衡提供基础,贝叶斯代理在每个周期都会采取行动并更新其关于转移概率函数的信念。我们询问均衡方法是否适用于这种环境,即,“是否有可能通过参考一个简单的MDP来描述贝叶斯代理的稳态行为,在该MDP中,代理对转移概率函数有固定(尽管可能不正确)的信念?”如果代理人非常不耐烦,答案是肯定的。

8
何人来此 在职认证  发表于 2022-5-7 18:09:53
但是,如果代理人有足够的耐心,在动态环境中会出现一些微妙的问题,导致更微妙的答案:如果我们将注意力限制在具有我们称之为穷举学习特性的稳定状态,答案是肯定的。在穷尽性学习下,代理人意识到,在稳定状态下,她没有其他东西要学。在前一个例子的上下文中,这个条件保证问题(1)中的最优操作在问题(2)中也是最优的。如果没有彻底的学习,问题(2)中的行动可能是最优的,因为代理人没有更新她的信念。但是,如果她更新信仰,同样的行动可能是次优的,因为正如我们在本文中所展示的,在动态环境中,实验的价值可能是负面的。这种情况在静态环境下是不可能的,因为值函数只是信念的函数,它的凸性和贝叶斯信念的鞅性质意味着实验的值总是非负的。穷举学习的概念在动态环境中激发了伯克-纳什均衡的自然需求。然而,由于缺乏实验,这种情况仍然允许信念被纠正,这是班迪特(如罗斯柴尔德(1974b)、麦克伦南(1984)、伊斯利和基弗(1988))和自我确认平衡(如巴蒂加利(1987)、福登伯格和莱文(1993)、德克尔等人(2004)、费尔什特曼和帕克斯(2012))文献的一个标志。继Selten(1975)之后,我们定义了一个更进一步的、完美的Berk-Nash均衡,以描述对实验具有鲁棒性的行为,并为其存在提供条件。我们对信念和行为的渐近描述有助于研究贝叶斯学习下的渐近信念和/或行为。表1对一些与我们工作相关的论文进行了分类。

9
可人4 在职认证  发表于 2022-5-7 18:09:57
左边的表格包括一些文件,其中代理人从外生数据中学习,即她不影响数据的随机特性。此主题正确指定了DmisSpecified正确指定了DmisSpecified DI。i、 d.Schwartz[65]Freedman[63]Diaconis Freedman[86]Berk[65]Bunke Milhaud[98]StaticRothschild[74]^Gittins[79]^McLennan[84]^Easley Kiefer[88]Aghion[91]Nyarko[91]^Esponda[08]^Esponda Pouzo[16]Heidhues[16]non-i.i.d.Ghosal-Van der Vart[07]Shalizi[09]Vayanos-Rabin[10]Dynamicfreis[81]^Koulonanos[09]Vatis[09]这篇论文纸质外生数据内生数据表1:统计人员主要针对正确指定和错误指定的模型,以及i.i.d.和非i.i.d.数据,研究贝叶斯学习的文献。右边的表格包括一些文件,代理人从这些文件中学习到的数据是内生的,因为这些数据是由代理人的行为驱动的,经济学家主要在静态环境中研究这个主题。所谓静态,我们的意思是,如果去掉学习动力,这个问题将简化为静态优化问题。表1还区分了研究渐近信念和/或行为的两种互补方法。第一种方法是专注于特定设置,并提供渐近行为和信念的完整特征,包括收敛结果;这些论文在表1中用上标^标记。一些论文在动态和正确指定的随机增长模型中采用这种方法(例如,Freixas(1981),Koulovatianos等人(2009))。Nyarko(1991年)、Esponda(2008年)和Heidhues等人(2016年)在静态错误设定的情况下研究了没有实验动机的被动学习问题。福登伯格等人。

10
能者818 在职认证  发表于 2022-5-7 18:10:00
(2016)是唯一一篇在主动学习的动态决策问题中提供完整描述的论文。,我们在本文中遵循的第二种方法正式地说,如果对于固定的策略和对转移概率函数的信念,结果(状态和行动)在时间上是独立的,那么问题是静态的。在主动学习下,不同的行为传递不同数量的信息,非近视者会考虑利用与实验的权衡。在静态和动态环境中都可以进行被动或主动学习。Fudenberg et al.(2016)中的环境是动态的,因为主体控制着布朗运动的漂移,即使最优性的唯一相关状态变量最终是主体的信念。我们之前对静态情况(Esponda和Pouzo,2016)的研究是研究一般设置,重点是描述稳态集。本文还与为均衡概念提供学习基础的文献有关,如纳什或自我确认均衡(见Fudenberg-andLevine(1998)的调查)。与本文献相反,我们考虑了马尔可夫决策问题,并考虑了错误指定的模型。在广泛形式的游戏中研究了特定类型的误认。Jehiel(1995)考虑了重复交替移动游戏的类别,并假设玩家只预测未来有限的时间段;学习基金会见Jehiel(1998)。我们有一个共同的特点,即学习过程发生在游戏中,而信念是在给定数据的情况下提供最佳效果的信念。第2节和第3节介绍了框架和平衡概念。在第4节中,我们介绍了几个例子。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-4 10:40