楼主: 能者818
1289 66

[量化金融] 信号游戏中的学习和类型兼容性 [推广有奖]

41
何人来此 在职认证  发表于 2022-5-31 03:44:33
我们声称,当δ=0时,这两种类型都是δ-稳定的,即发送沙子,让接收器用a响应每个信号,这是一种异质合理化的自我确认平衡。然而,这种合用行为不能发生在纳什均衡或单一自我确认均衡中,在纳什均衡或单一自我确认均衡中,两种发送方类型必须对接收方如何响应持有相同的信念。要确立这一说法,请注意,由于δ=0,每个发送方在每次历史之后都会播放近视最佳信号。对于任何γ,都有一个稳定的状态,即接收者的策略在每次历史之后都会对每个信号做出反应,θ型发送者在每次历史之后都会玩SAFER,并且从不更新他们之前关于接收者对s的反应的信念,θ型发送者在经历少于6个周期的情况下会玩SBR,但从7岁开始会切换到SFORVER。θ代理的行为是最优的,因为在k个玩沙周期后,发送者对π(·| s)的后验信念是β(1+k,3),因此下一个玩沙周期的预期收益是1+k4+k(-1) +4+k(2)。当0时,此表达式为正≤ k≤ 5,但当k=6时为负值。6岁及以下θ型的分数接近0,为γ→ 因此,我们构建了一系列稳态策略,这些策略将收敛到假脱机平衡。因此,尽管这两种类型都以相同的前g开头,但他们对接受者对第七个g的反应的看法有所不同。与大量δ稳定的结果相反,我们现在表明,当δ趋于1时,只有纳什均衡才能成为稳态结果。此外,这一限制还排除了策略性文件,在这些文件中,发送方的策略只能由接收方对一些未发送的信号做出主导动作的信念来支持。定义10。

42
大多数88 在职认证  发表于 2022-5-31 03:44:36
在信号博弈中,具有异质作用路径信念的完美贝叶斯均衡是一个策略文件(π*, π*) 这样:o对于每个θ∈ Θ,u(θ;π)*) = 最大值∈Su(θ,s,π*(·| s))。o对于每个路径信号s、u(p*(·| s),s,π*(·| s))=最大^a∈Au(p*(·| s),s,a)。o对于每个有效路径信号s和每个a∈ 带π的A*(a | s)>0,存在一个信念p∈ (Θ)使得u(p,s,a)=最大^a∈Au(p,s,^a)。这里u(θ;π*) 指π下θ型的payoff*, 和p*(·| s)是在策略π下,关于信号s后的森德类型的贝叶斯后验信念*.前两个条件意味着利润是纳什均衡。第三个条件类似于完美贝叶斯均衡,但有点弱,因为它允许接收者在收到一个异径信号后,通过几个动作进行混合,每个动作都是对发送者类型的不同信念的最佳反应。这意味着π*(·| s)∈ (BR((Θ),s)),但π*(·| s)本身可能不是对任何关于发送者类型的单一信念的最佳回应。提案5。If策略文件π*耐心是稳定的,那么它就是一个具有异质作用路径信念的完美贝叶斯均衡。证据在在线附录中,我们证明了耐心稳定的结果必须是纳什均衡。这一论点遵循了Fudenberg和Levine(1993)的证明策略,该策略通过超额期权价值得出了一个矛盾。在大纲中,如果π*耐心稳定,每个玩家的策略都是对正确的对手路线战术信念的最佳回应。因此,如果π*如果不是纳什均衡,某种类型的人应该感知到一个持久的期权值,用概率为0的信号进行实验。但这与在足够长的历史中评估的期权价值必须为0这一事实相矛盾。现在我们来解释为什么一个patientlystable pro-fileπ*必须满足定义10中的第三个条件。

43
kedemingshi 在职认证  发表于 2022-5-31 03:44:39
在观察任何历史之后,一个从常规先验开始的接受者认为每个信号在他的下一场比赛中都有正概率。因此,他的最优策略为每个信号s规定了一个最佳响应,即在历史y之后看到信号s时,接收者对发送者类型的偏好或信念。对于任何规则先验g,0≤ δ、 γ<1,并且任何发送方聚合起作用π,因此我们推断Rg,δ,γ[π](·| s)完全支持BR((Θ),s)。这意味着,在每一个稳定状态下,以及因此在每一个耐心稳定的战略文件中,总的接收者反应也是如此。在Fudenberg和Levine(1993)中,这一论点依赖于代理人的有限寿命,仅通过选择足够大的寿命来确保“几乎所有”历史足够长。通过选取接近1的γ,我们可以在几何寿命模型中实现类似的效果。我们的证明使用的事实是,如果δ是固定的,γ→ 1,那么发送者需要进行的实验数量相对于其预期寿命而言可以忽略不计,因此大多数发送者对其当前信念的反应大致最佳。如果我们fixγ和letδ,则不能得出相同的结论→ 1,即使最优发送方策略只取决于乘积Δγ,因为对于固定发送方策略,发送方播放的诱导分布取决于γ而不是δ。5.3患者稳定性意味着相容性标准建议5允许接受者使用任何信念维持其作用路径行动∈ (Θ)。我们现在来看看我们的主要结果,它集中于重新定义作用路径信念。我们证明了耐心稳定性选择了纳什均衡的一个严格子集,即那些满足相容性标准的纳什均衡。定义11。

44
何人来此 在职认证  发表于 2022-5-31 03:44:42
对于固定策略,文件π*, 设u(θ;π*) 表示π下θ型的支付*, 和letJ(s,π*):=θ∈ Θ:maxa∈Au(θ,s,a)>u(θ;π)*)是一组类型,对于这些类型,信号s的某些响应严格优于π下的payoff*. 信号s对于J(s,π)的补码中的类型是弱平衡占优的*).函数π下信号s的容许信度*areP(s,π*):=\\nPθ。θ: θsθ和θ∈ J(s,π)*)这里Pθ。θ在方程式(5)中定义。也就是P(s,π*) 是Pθ族施加的联合信念约束。θ表示(θ,θ)满足两个条件:θ比θ与s更相容,而且更相容的θ属于J(s,π*). 如果没有满足这两个条件的对(θ,θ),那么(根据无元素相交的约定)P(s,π*) 定义为(Θ)。在任何信号游戏中,对于任何π*, 集P(s,π)*) 总是非空的,因为它总是包含先验λ。定义12。战略文件π*如果π(·| s)满足兼容性标准∈ (BR(P(s,π*), s) )与直觉标准或Cho和Kreps(1987)的D1标准不同的是,对于每一个s.一样的神圣平衡,兼容性标准只说一些信号不应该增加“不可信”类型的相对可能性,而不是要求这些类型的概率为0。有人可能会想象一个兼容标准的版本,其中信念约束Pθ。θ在θ时适用sθ。为了理解为什么我们需要θ的附加条件∈J(s,π)*) 在定义可接受信念时,请记住引理3仅在π(s |θ)对于类型更兼容的θ“足够大”时,才为接收器的问题提供学习保证。在极端情况下,s是θ的严格控制信号,她在学习过程中永远不会播放它。结果表明,如果s对θ是弱平衡占优的,那么θ可能仍然不会对此进行太多实验。

45
可人4 在职认证  发表于 2022-5-31 03:44:45
另一方面,下一个引理提供了θ与swhen实验频率的下限∈ J(s,π)*) δ和γ接近1。引理4。修正常规的先验g和策略文件π*其中,对于某些类型的θ和信号,θ∈ J(s,π)*). 存在一个数字 ∈ (0,1)和阈值函数δ:N→ (0,1)和γ:N×(0,1)→ (0,1)使得每当π∈ ∏*(g,δ,γ)带δ≥δ(N)和γ≥ γ(N,δ)和π不大于 远离π*在第二种情况下,我们有π(s |θ)≥ (1)- γ) ·N.电阻isd(π,π*) =Xθ∈ΘXs∈S |π(S |θ)- π*(s |θ)|+Xs∈SXa公司∈A |π(A | s)- π*(a | s)|。注意,由于π(s |θ)介于0和1之间,我们知道(1- γ(N,δ))·N<1每N。在线附录中提供了该引理的证明。为了获得对它的直觉,假设在π中,不仅sequilibrium是不确定的*, 但是,此外,在某些接收器响应a下,扫描导致θ型的最高信号博弈支付。因为先验是非理论的,学习问题中每个信号的Gittins指数接近其在阶段博弈中的最高可能支付,因为发送者变得非常耐心。因此,对于每N∈ N、 当γ和δ足够接近1时,一种新类型的θ将在她生命的前N个阶段中的每一个阶段都起作用,无论她在这段时间内收到了什么样的反应。这N个周期约占(1- γ) ·她生命的N部分,证明了这个特殊情况下的引理。事实证明,即使SDO不能在信号游戏中带来最高的潜在回报,长寿的玩家也会对他们的稳态回报有一个很好的估计。因此,θ型仍将发挥战略文件π中均衡主导的任何作用*在任何非常接近π的稳态中至少N次*, 虽然这N个时期可能不会发生在她生命的开始。定理2。

46
kedemingshi 在职认证  发表于 2022-5-31 03:44:48
每个耐心稳定的策略文件π*满足兼容性标准。这个证明结合了引理2、引理3和引理4。引理2表明,与splay更兼容的类型会更频繁地显示它。引理4说,对于那些不受弱平衡支配的人来说,他们会“多次”玩这个游戏最后,引理3表明,这里的“多次”非常大,大多数接受者正确地认为,相容性更强的类型比相容性较弱的类型发挥的作用更大,因此,相容性更强的类型与相容性较弱的类型的后验优势比超过了前验优势比。证据假设π*在常规前g下耐心稳定。固定沙子和动作^a/∈BR(P(s,π*), s) 。设h>0。我们将显示π*(^a | s)<h。由于s、^a和h>0的选择是任意的,我们将证明该定理。步骤1:设置一些常量。在引理3的陈述中,对于每一对θ,θ使得θsθ和θ∈ J(s,π)*), 放 =h2 |Θ|并找到Cθ、θ和γθ、θ,以便结果成立。设C为所有suchCθ,θ的最大值,γ为所有此类γθ,θ的最大值。还发现n≥ 1因此1-n> 1个-h2 |Θ|。(6) 在引理4的陈述中,对于每个θ至少一个θ的sθ,findθ、 所以引理成立。写*> 0作为所有这些中的最小值θ和let′δ*(nC)和γ*(nC,δ)表示δθ和γθ在该θ上的最大值。第2步:找到δ、γ较大且近似于π的稳态曲线*.自π起*在g下耐心稳定,存在一系列策略变量π(j)→ π*式中,π(j)在g和δj下是δj-稳定的→ 1、每个π(j)可以写为稳态策略文件的极限。

47
何人来此 在职认证  发表于 2022-5-31 03:44:51
也就是说,对于每个j,都存在γj,k→ 1和一系列稳态曲线π(j,k)∈ ∏*(g,δj,γj,k)使得limk→∞π(j,k)=π(j)。阵列π(j,k)到π的收敛性*意味着我们可能会发现j∈ N和函数k(j),所以当j≥ j和k≥ k(j),π(j,k)不大于min(*,h2 |Θ|)远离π*. Findj公司o≥ j足够大soδo:= δjo>\'\'δ*(nC),然后找到足够大的ko> k(jo) 所以γo:= γjo,ko> 最大((R)γ*(nC,δo), γ) 。因此,我们确定了一个稳态函数πo:= π(jo,ko)∈∏*(g,δo, γo) 近似于π*至最小值内(*,h2 |Θ|)。步骤3:为每对θ应用Rand R的属性,θ使θsθ和θ∈ J(s,π)*), 我们将限制π的概率o(·| s)对Pθ的反应不是最好的。θbyh |Θ|。因为最多有|Θ|·(|Θ|- 1) 交叉口定义P(s,π)中的此类空气*), 这意味着πo(a | s)<[|Θ|·(|Θ|- 1) ]·h |Θ|自^a/∈ BR(P(s,π*), s) 。自π以来o距离π不超过h2 |Θ|,这将显示π(^a | s)<h。通过构造πo比更接近θ到π*, 还有δo≥Δθ(nC)和γo≥ \'-γθ(nC,δo).引理4,πo(s |θ)≥ nC(1- γo). 同时,πo= R[πo] 和θsθ,所以引理2意味着πo(s |θ)≥ πo(s |θ)。转向接收器侧,πo= R[πo] 带πo满足引理3与 =h2 |Θ|和γo≥ γ。因此,我们得出πo(BR(Pθ.θ,s)| s)≥ 1.-n-h2 |Θ|。但通过方程(6)中n的构造,1-n> 1个-h2 |Θ|。因此LHS至少为1-h |Θ|,根据需要。备注4。更一般地,考虑具有几何分布寿命的代理种群的任何模型,该模型生成聚合响应函数Rand R。

48
可人4 在职认证  发表于 2022-5-31 03:44:54
将(g,δ,γ)下的稳定状态定义为策略变量π*使得Rg,δ,γ(π*) = π*和Rg,δ,γ(π*) = π*,定理2的证明适用于新学习模型的耐心稳定证明,前提是Rsatis fi是引理2的结论,Rsatis fi是引理3的结论,引理4对(θ,s)对有效,因此θ至少一种类型θ和θ的sθ∈ J(s,π)*).下面我们将概述两种更为通用的学习模型。(证据见在线附录。)推论1。通过对第2节的稳态学习模型进行以下任一修改,每个耐心稳定的策略文件仍然满足兼容性标准。(i) 。异质性先验知识。存在规则发送方优先级{g1,k}nk=1的有限集合,以及规则接收方优先级{g2,k}nk=1的有限集合。在出生时,代理被赋予随机先验,其中先验分布对于发送者和接收者分别为u和u。代理人的优先权独立于其支付类型,而且没有人观察到其他人的优先权。(二)。社会学习。假设1- 如第2节所述,发送人中的α分数为“普通学习者”,但剩余的0<α<1分数为“社交学习者”在每个周期结束时,社交学习者可以观察其匹配的接收者的广泛形式策略,以及随机均匀抽样的c>0其他匹配的广泛形式策略。每个寄件人在出生时都知道她是正常的学习者还是社交学习者,这与她的支付类型无关。接收者无法区分这两种发送者。示例1(续)。例1的啤酒蛋饼游戏有两个纳什均衡的组成部分:“啤酒池均衡”,其中两种类型都以概率1玩啤酒,以及“蛋饼池均衡”,其中两种类型都以概率1玩蛋饼。

49
大多数88 在职认证  发表于 2022-5-31 03:44:57
在乳蛋饼池平衡π中*, θstrong型的平衡payoff是2,所以θstrong∈ J(啤酒,π*) 既然θstrong在啤酒下的最高可能收益是3,我们已经证明θstrong啤酒θ淡。所以,P(啤酒,π*) =(p∈ (Θ):p(θ弱)p(θ强)≤λ(θ弱)λ(θ强)=1/9)。啤酒后的争斗并不是对任何此类信念的最佳反应,因此啤酒后以正概率发生争斗的均衡不符合兼容性标准,而thusno quiche池均衡是耐心稳定的。由于耐心稳定的结果集是纳什均衡集的非空子集,所以喝啤酒是唯一的耐心稳定的结果。根据推论1,在涉及异质先验或社会学习者的更一般的学习模型中,乳蛋饼池均衡仍然不稳定。5.4患者稳定性和均衡优势在一般信号博弈中,接收方使用纯策略的均衡必须满足比兼容性标准更高的astronger条件才能保持患者稳定。定义13。LeteJ(s,π*):=θ∈ Θ:maxa∈Au(θ,s,a)≥ u(θ;π)*).IfeJ(s,π*) 是非空的,定义了信号分解π下的强容许信念*tobe▄P(s,π*):= (eJ(s,π*))\\nPθ。θ: θsθ在Pθ处。θ在方程式(5)中定义。否则,定义P(s,π*) := (Θ)。这里,eJ(s,π*) 是一组类型,对于这些类型,信号s的某些响应至少与其在π下的平衡支付一样好*— 也就是说,在Cho和Kreps(1987)的意义上,s不平衡的一组类型。请注意,EP与P不同,将概率0分配给平衡主导类型,这是直觉标准的信念限制。定义14。

50
kedemingshi 在职认证  发表于 2022-5-31 03:45:01
纳什均衡π*对于每个路径信号,接收机的路径是否严格*, π(a*|s*) = 1对于一些a*∈ A和u(s*, 一*, π) >最大6=a*美国*, a、 π)。当然,接收者不能对未到达的信息集的播放有严格的事前偏好;这种情况被称为“路径严格”,因为它在收到路径信号后对接收者的激励没有限制。在一般的信令博弈中,所有纯策略均衡对接收方都是路径严格的,但对于混合策略均衡,情况并非如此。定义15。战略文件π*如果每个信号都有π,则满足强兼容性标准*(·| s)∈ (BR(eP(s,π*), s) )。强兼容性标准直接意味着兼容性标准,因为它对接收者的行为施加了更严格的限制。同时,强兼容性标准意味着直觉标准。定理3。假设π*对接受者严格且耐心稳定。然后满足强兼容性标准。该定理的证明见附录A.5。其主要思想是,当作用路径信号在π中占主导地位时*对于θDb型,即使是弱平衡也不占主导地位。对于θU型,θU型将使用θDdoes“更频繁地”进行实验。实际上,我们可以提供θDever偏离其平衡信号s的稳态概率的上界*在第一次尝试后,这也是θ与s的试验频率的上限,而引理4提供了θ与s的试验频率的下限。Weshow有一系列稳态曲线π(k)∈ ∏*(g,δk,γk)和γk→ 1和π(k)→ π*其中,下限与上限的比率为单位。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 13:30