错指定马氏决策过程的均衡 - 第4页 - 外文文献专区

31楼

nandehutu2022

发表于 2022-5-7 18:11:17

证据是标准的，并归入在线附录。让h∞= （s，x，…，st，xt，…）表示动态优化问题的有限历史或结果路径，并让H∞≡ （Gr（Γ））∞代表实体历史的空间。对于每t，设ut:H∞→ （Θ）表示代理人的贝叶斯信念，递归定义为ut=B（st-1，xt-1，st，ut-1）当ut-1.∈ Dst-1，xt-1、st（见定义11），以及其他任意性。我们假设代理遵循一些策略函数。在每个时间段t中，都有一个状态代表一个信念ut，代理选择一个（可能混合的）动作f（·st，ut）∈ （十）。在实现动作XT后，状态st+1脱离真实转移概率。代理观察已实现的动作和新状态，并使用贝叶斯规则将其信念更新为ut+1。贝叶斯SMDP的原语（包括状态q上的初始分布和先验分布）∈ （Θ））和一个策略函数f在H上产生一个概率分布∞这是以标准方式定义的；让Pf表示H上的概率分布∞.我们现在将策略和结果定义为随机变量。对于固定策略函数f和每个t，设σt:H∞→ ∑表示代理的策略，通过设置σt（h∞) = f（·|·，ut（h∞)) ∈ Σ.最后，对于每一个t，让mt:H∞→ （Gr（Γ））对于所有t，h∞, 和（s，x）∈ Gr（Γ），mt（s，x | h）∞) =ttXτ=0（s，x）（sτ，xτ）是在时间t之前，结果（s，x）发生的次数。声称代理已达到稳定状态的一个合理标准是，她的策略和结果的时间平均值收敛。定义14。策略与概率分布（σ，m）∈ Σ × （Gr（Γ））可用于具有先验u和策略函数f的贝叶斯SMDP，如果存在setH 当Pf（H）>0时，对于所有H∞∈ H、作为t→ ∞,σt（h）∞) → σ和mt（h）∞) → M

32楼

大多数88

发表于 2022-5-7 18:11:20

（13）此外，如果存在一种信念*以及一个子序列（ut（j））j，如ut（j）（h∞)W→ u*（14）对于所有人（s，x）∈ Gr（Γ），u*= B（s，x，s，u）*) 为了所有的人∈ 是这样的，Qu*（s | s，x）>0，则（σ，m）称为穷举学习稳定。条件（13）要求策略和结果的时间频率稳定。通过紧性，存在一系列收敛的信念。穷举学习的附加要求是，其中一个子序列的极限点为u*, 被认为是贝叶斯算子的一个固定点，这意味着无论代理考虑什么状态和策略，她都不期望自己的信念改变。因此，代理人认为，在这种情况下，所有的学习可能性都已耗尽*. 然而，这种情况并不意味着代理人在稳定状态下有正确的信念。下一个结果表明，如果结果的时间平均值稳定在m，那么信念就会越来越集中于ΘQ（m）。引理5。考虑一个具有真转移概率函数Q的正规贝叶斯SMDP，完全支持先验知识∈ （Θ）和策略函数f。假设（mt）t对集合H中的所有历史都收敛到m 使得Pf（H）>0。那么，对于allopen设置U ΘQ（m），limt→∞ut（U）=1Pf-a.s.在H.证明中。见附录。引理5的证明澄清了伯克-纳什均衡定义中wKLD函数的起源。该证明将Esponda和Pouzo（2016）对引理2的证明应用于动态环境。引理5扩展了错误学习统计（伯克（Berk）（1966）、邦克和米尔豪德（Bunke and Milhaud）（1998）、沙利兹（Shalizi）（2009））的结果，考虑了一种环境，即代理人从马尔可夫环境中自身行为内生产生的数据中学习。以下结果为SMDP的伯克-纳什均衡概念提供了学习基础。定理2。

33楼

nandehutu2022

发表于 2022-5-7 18:11:23

存在‘δ∈ [0,1]这样：（i）对于所有δ≤δ，如果（σ，m）对于完全支持先验u且策略函数f为最优的常规贝叶斯SMDP是稳定的，那么（σ，m）是SMDP的Berk-Nash均衡。（ii）对于所有δ>δ，如果（σ，m）对于正规BayesianSMDP的穷举学习是稳定的，且充分支持先验u和最优的策略函数f，那么（σ，m）是SMDP的Berk-Nash均衡。证据见附录。定理2为伯克-纳什均衡提供了一个学习证明。证据背后的主要思想如下。我们总是可以找到一个后验序列，它收敛到某个μ*通过引理5和行为收敛到σ的事实，可以得出σ必须解决信念收敛到μ的动态优化问题*∈ ΘQ（m）。此外，通过σToσ的收敛性和传递核σ7的连续性→ Mσ，Q，鞅收敛定理的一个应用意味着mt渐近等于Mσ，Q[mt]。这个事实，算子Mσ，Q[·]的线性和mtto M的收敛性意味着M是给定σ的不变分布。证明的结论是，σ不仅解决了信念收敛到μ的优化问题*但也解决了MDP问题，在MDP中，信念永远无法实现*. 当然，如果代理非常不耐烦，这是正确的，这解释了定理2第（i）部分为什么成立。对于有足够耐心的代理人，结果依赖于稳态满足穷举学习的假设。我们现在举例说明并讨论这个假设的作用。实例在初始阶段，风险中性代理人有四种投资选择：a、B、S和O。行动a支付1- θ*, 动作B支付θ*, 行动S在初始阶段支付2/3的安全报酬，其中θ*∈ {0, 1}. 对于这三种选择中的任何一种，决策问题到此为止，代理人在所有未来时期的报酬均为零。

34楼

可人4

发表于 2022-5-7 18:11:26

行动O给予代理人的报酬为-1/3在初始阶段和选择权下一阶段进行投资，其中有两种可能的状态，即Saa和sB。如果θ*= 1，如果θ*= 0.在上述每个州，代理人都可以选择进行风险投资或安全投资。安全投资在这两个州的回报率为2/3，在未来所有时期的后续回报率为零。风险投资给代理人的报酬是她从选择a中获得的报酬的三倍，即3（1）- θ*), 如果状态是sA，它会给代理人三倍于她从选项B中获得的报酬，即3θ*,如果国家是某人；所有未来时期的收益均为零。假设代理知道除θ值以外的所有基元*. 设Θ={0，1}；特别是，SMDP是正确指定的。我们现在表明，在anyBerk-Nash均衡中，一个有效的患者代理人永远不会选择安全行动S：Letu∈ [0，1]表示主体对θ概率的平衡信念*= 1.为了使行动S优于A和B，必须满足以下条件：∈ [1/3, 2/3]. 但是，对于固定的u，行动O的感知收益是-+ δuV¨Qu（sA）+（1）- u）V'Qu（sB）= -+ δumax{，3（1- u)} + (1 - u）最大{，3u}≥ -+ δ6u(1 - u），严格高于所有u∈ [1/3,2/3]前提是δ>δ=3/4。因此，对于一个有充分耐心的代理人来说，不存在使行动S最优的信念，因此，在任何伯克-纳什均衡中都不会选择S。现在考虑一个贝叶斯代理，它从一个先验的u=Pr（θ=1）开始∈ （0,1）并更新了她的信仰。行动的价值在于-+ δ（uW（sA，1）+（1- u）W（sB，0））=-+ δ<因为W（sA，1）=W（sB，0）=2/3。

35楼

能者818

发表于 2022-5-7 18:11:30

换句话说，代理人意识到，如果该州实现了SAI，那么她将更新她的信念到u=1，这意味着该州的安全投资是最优的；同样的论点也适用于州某人。然后，她发现选择行动A是最佳选择≤ 1/3，B如果u≥ 2/3，如果u∈ [1/3, 2/3].特别是，对于某些先验来说，选择S是一个稳定状态的结果，尽管在任何伯克-纳什均衡中，如果代理人是有充分耐心的，则不会选择S。然而，这种信念并不能满足彻底的学习，因为代理人相信任何其他行动都会完全揭示所有的不确定性。更一般地说，如果一个主体是有充分耐心的，那么稳态就不能成为伯克-纳什均衡，因为实验的价值可能是有益的。为了了解这一点，假设在代理的信念为ubeV alueExp（s，x；u）时，在状态W下对动作x的实验值≡ equ（·s，x）[W（s，B（s，x，s，u））]- E’Qu（·s，x）V’Qu（S）.该表达式是代理更新其先前u时的值与代理具有固定信念u时的值之间的差异。一个不考虑未来信念变化的代理人可能最终会选择一个实验值为负值的行动，而在考虑信念变化时，这个行动实际上是次优的。在上一个示例中，给定u的作用O的实验值为（uW（sA，1）+（1- u）W（sB，0））-uV¨Qu（sA）+（1）- u）V'Qu（sB）,减少到2/3- 6u(1 - u）和u的值为负值，使sb优于A和B。因此，如果代理人不考虑信念的变化，行动O可能是最优的，但如果她考虑了，则可能是次优的。我们现在具体讨论如何在定理2的证明中使用穷举学习的性质。

36楼

可人4

发表于 2022-5-7 18:11:34

如果一个行动支持一个稳定的战略，我们称之为稳态行动，否则我们称之为非稳态行动。关键的一步是要表明，如果在更新信念时，稳态行为优于非稳态行为，那么在信念固定时也会更好。这是真的，前提是在稳态下进行实验的价值为零，这是由穷举学习保证的。如果我们不进行详尽的学习，而只是简单地要求我们进行实验，那么稳态行为的实验就没有任何价值。上一个例子说明了一个问题，即对于非稳态行为，实验值可能为负值。因此，在信念更新的问题中，非稳态行为可能是次优的，但在信念未更新的问题中，非稳态行为可能是最优的（因此不考虑实验的负值）。如Esponda和Pouzo（2016）所示，这种担忧不会出现在静态环境中，其中唯一的状态变量是信念。原因在于，价值函数的凸性和贝叶斯的鞅性质简单地证明了实验的价值总是非负的。最后，我们对定理2进行了补充说明。备注3。贴现因子：在定理2的证明中，我们提供了作为基元函数的δ的精确值。然而，这一界限可能并不明显。正如上面的例子所示，为了计算一个锐利的界限，我们必须通过学习来解决动态优化问题，这正是我们通过关注伯克-纳什均衡来试图避免的。收敛性：定理2并不意味着行为必然会在SMDP中稳定下来。

37楼

何人来此

发表于 2022-5-7 18:11:38

事实上，从马尔可夫链理论可知，即使节点决定影响相关的转换，如果没有进一步的假设，结果也不需要稳定。因此，我们不能指望对结果的收敛性有一般性的说法，例如，在学习在博弈中发挥纳什均衡的相关背景下，这也是正确的。因此，该定理为特定环境下的收敛问题留下了空白，这一问题需要其他工具（如随机逼近），最好通过明确研究特定环境类的动力学来解决（见引言中的参考文献）。混合策略：定理2还提出了一个问题，即混合策略如何变得稳定，因为一般来说，代理人不太可能持有使他们在任何时候都完全不同的信念。Fudenberg和Kreps（1993年）在学习玩混合策略均衡的背景下提出了同样的问题，并通过在la Harsanyi（1973年）中加入小的支付扰动来回答：代理人实际上并不混合；相反，每个周期的收益都会受到小扰动的影响，我们称之为混合策略，简单地说就是通过使用纯策略并对收益扰动进行积分而产生的概率分布。我们在介绍静态环境下伯克-纳什均衡的论文中采用了这种方法（Esponda和Pouzo，2016）。同样的想法也适用于这里，但我们省略了支付扰动以减少符号负担。6平衡点理论2意味着，对于有足够耐心的参与者，我们应该对以下伯克-纳什平衡点感兴趣。定义15。

38楼

可人4

发表于 2022-5-7 18:11:42

策略与概率分布（σ，m）∈ Σ × （Gr（Γ））如果aBerk-Nash均衡是由一个信念支持的，则是一个Berk-Nash均衡，具有SMDP的穷举学习*∈ （Θ）为了所有（s，x）∈ Gr（Γ），u*= B（s，x，s，u）*)为了所有的人∈ 是这样的，Qu*（s | s，x）>0。在穷举学习的均衡中，有一种支持性信念被认为是贝叶斯算子的一个固定点，这意味着无论代理考虑什么状态和策略，她都不希望自己的信念改变。例如，在博弈论文献中，一般的全局收敛结果只在特殊类别的博弈中得到，例如零和博弈、势博弈和超模博弈（Hoffauerand Sandholm，2002）。Doraszelski和Escobar（2010）将支付扰动纳入动态环境。穷举学习的要求并不意味着对实验的鲁棒性。例如，在第4.1节研究的垄断问题中，选择概率为1的低价是一个具有穷尽学习的均衡，这是由概率为1的θ的信念支持的*L=0。我们通过引入进一步的平衡，排除了对实验不可靠的平衡。定义16。ε-扰动SMDP是一种SMDP，其中策略被限制为∑ε={σ∈ ∑：σ（x | s）≥ ε表示所有（s，x）∈ Gr（Γ）}。定义17。策略与概率分布（σ，m）∈ Σ × （Gr（Γ））是一个SMDP的完全Berk-Nash均衡，如果存在一个序列（σε，mε）ε>0的Berk-Nash均衡，且ε-扰动SMDP的穷举学习收敛到（σ，m）ε→ 0.塞尔滕（1975）在广泛形式的游戏中引入了完美的概念。

39楼

何人来此

发表于 2022-5-7 18:11:45

然而，完美本身并不能保证所有（s，x）∈ Gr（Γ）在MDP中达到。下一个属性保证当代理以正概率选择所有策略时，可以到达所有状态。定义18。MDP（Q）可以满足所有人的充分沟通∈ S、存在有限序列（S，…，sn）和（x，x，…，xn），因此（si，xi）∈ Gr（Γ）表示alli=0，1。。。，n和Q（s | sn，xn）Q（sn | sn）-1，xn-1）。。。Q（s | s，x）>0。如果相应的MDP满足，则SMDP满足充分沟通。充分沟通是MDP理论的标准，在第4节的所有示例中都适用。它保证了所有ε-扰动环境都有一个单一的循环状态类。在不成立且存在不止一类循环状态的情况下，我们仍然可以通过形式化聚焦应用以下结果，为了得到一个序列，我们将ε>0作为有理数；在下文中，我们将这一点保留下来，以减轻符号负担。只要代理正确地认为她不能从一个经常性课程转到另一个，就可以忽略其他课程。充分的沟通保证了在一个受干扰的SMDP中不会出现效果均衡的结果。然而，这并不排除在平衡路径上进行实验的愿望。我们通过要求弱识别来排除后者。提议2。假设一个SMDP是弱识别、ε-扰动和令人满意的通信。（i）如果SMDP是正则的，如果（σ，m）对于贝叶斯SMDP是稳定的，那么它在穷举学习中也是稳定的。（ii）如果（σ，m）是一个Berk-Nash均衡，那么它也是一个具有穷举学习的Berk-Nash均衡。证据

40楼

何人来此

发表于 2022-5-7 18:11:50

见附录。命题2提供了这样的条件：稳态满足穷举学习，伯克-纳什均衡可以由满足穷举学习条件的信念来支持。在这些条件下，我们可以通过考虑扰动环境并将扰动降至零（参见第4节中的示例），找到对实验具有鲁棒性的平衡，即完美平衡。下一个命题表明，完美伯克-纳什是伯克-纳什与穷举学习的结合。如第4.1节中的垄断示例所示，这是一种严格的竞争。提议3。正则SMDP的任何完美Berk-Nash均衡都是具有穷举学习的Berk-Nash均衡。证据见附录。我们通过证明完美伯克-纳什均衡的存在性得出结论（因此，命题3给出了具有穷举学习的伯克-纳什均衡）。定理3。对于任何弱识别且满足充分沟通的常规SMDP，都存在一个完美的伯克-纳什均衡。证据见附录。7结论我们研究了马尔可夫决策过程，其中代理对一组可能的转移概率函数具有先验知识，并使用贝叶斯规则更新她的信念。这个问题在许多经济环境中都是相关的，但通常不便于分析。我们建议通过研究渐近信念和行为使其更易于理解。问题的答案是“贝叶斯SMDP的稳态可以通过参考具有固定信念的MDP来表征吗？”是合格的是。如果代理非常不耐烦，则必须关注伯克-纳什均衡集。另一方面，如果代理有足够的耐心，并且我们对穷举学习的稳定状态感兴趣，那么这些稳定状态的特征是穷举学习的伯克-纳什均衡。

[量化金融] 错指定马氏决策过程的均衡 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群