楼主: 能者818
1288 66

[量化金融] 信号游戏中的学习和类型兼容性 [推广有奖]

11
mingdashike22 在职认证  发表于 2022-5-31 03:42:59
将引理2、3和4结合起来,以证明论文的主要结果(定理2),即一般信号博弈中基于学习的环境。1.2结果概述第2节列出了我们将用于信号游戏的符号,并介绍了我们的学习模型。第3节介绍了Gittins指数,我们用它来分析发送者的学习问题。它还定义了类型兼容性,这是驱动我们结果的偏序。我们说θ型比θ型更能与信号类型兼容,如果θ对某些接收机行为策略的弱最佳响应是θ对相同策略的严格最佳响应。为了将这种静态定义与发送者的最优动态学习行为联系起来,我们证明,在我们的假设下,发送者的学习问题形式上是一个多臂Bandit问题,因此每种类型的最优策略都以Gittins指数为特征。定理1表明,类型上的兼容性顺序等价于其Gittins指数上的顺序:θ是与信号兼容的类型,而不是类型θ当且仅当当θ是(弱)最高的Gittins指数时,如果这两种类型持有相同的信念并具有相同的贴现因子,则它具有严格最高的θ指数。第4节研究发送者和接收者群体的聚合行为。我们定义并描述了发送方和接收方的总体响应,这是对一次性信号博弈中最佳响应函数的分析。首先,我们使用耦合参数将定理1扩展到聚合发送方行为,证明与信号更兼容的类型在聚合中发送信号的频率更高(引理2)。然后我们转向接收机。直觉上,我们预计当接收者是长寿的时候,他们中的大多数人都会有尊重类型兼容性的信念,我们证明了这一点。

12
nandehutu2022 在职认证  发表于 2022-5-31 03:43:02
更准确地说,我们表明,当大多数接收机观察到与θ比θ更兼容的信号时,他们对后验信度的反应最好,后验信度的θ与θ的似然比支配这两种类型的先验似然比。引理3表明,根据Fudenberg、He和Imhof(2017)在罕见事件后更新后验概率的结果,对于相对于接收器预期寿命“足够频繁”发送的任何信号来说,这都是正确的。最后,第5节结合早期的结果来描述学习模型的稳态,这可以看作是一对相互的聚合反应,类似于灰平衡的定义。我们从证明引理4开始,引理4表明,任何非弱平衡主导的信号(见定义11)在稳定状态下都会“足够频繁地”发送,而发信人是非常有耐心和长寿的。结合上面讨论的三个引理,我们建立了我们的主要结果:任何耐心稳定的稳态都必须是一个纳什均衡,满足额外的限制,即在每个路径信号之后,接收器最好地响应某些可接受的信念(定理2)。例如,考虑Cho和Kreps(1987)的啤酒蛋饼游戏,很容易验证强型比弱型更适合啤酒。我们的研究结果表明,强者总的来说至少会像弱者一样频繁地发出这种信号,而一个非常有耐心的强者会“多次”尝试这种信号因此,当受试者有耐心时,长寿命受试者不太可能在观察啤酒后向下修正强型的概率。

13
mingdashike22 在职认证  发表于 2022-5-31 03:43:05
因此,“两种类型都吃蛋奶饼”的均衡不是学习模型的一种耐心稳定的稳态,因为它需要接收者将啤酒解释为发送者较弱的信号。最后,定理3为一般纯策略均衡中的患者稳定性提供了更有力的暗示,表明作用路径信念必须将概率零分配给Cho和Kreps(1987)意义上的均衡主导类型。1.3相关工作Fudenberg和Kreps(1988、1994、1995)指出,实验在确定广泛形式游戏的学习结果方面起着重要作用。正如Fudenberg和Kreps(1993)所研究的那样,他们研究了一个模型,每个角色中都有一个独立的、战略上短视的代理人,这个代理人的行为就像对手的游戏是静止的一样。由于这些模型涉及随时间累积的信息,因此它们没有稳态。我们的工作与Fudenberg和Levine(1993)以及Fudenberg和Levine(2006)的工作更为接近,他们还研究了相信社会处于稳定状态的大量人群中贝叶斯代理的学习。这项工作中的一个关键问题,以及在研究广泛形式游戏中的学习时的一个更普遍的问题,是描述有多少代理会尝试近视的次优行为。如果代理根本不进行实验,那么非纳什均衡可能会持续存在,因为玩家可能会对反路径游戏持有错误但自我确认的信念。Fudenberg和Levine(1993)表明,患者长寿代理人将在其路径信息集上进行足够的实验,以了解他们是否有任何可预测的偏差,从而排除非纳什均衡的稳态。然而,需要更多的实验来学习生成与反向归纳和顺序均衡相关的更清晰的预测。

14
nandehutu2022 在职认证  发表于 2022-5-31 03:43:08
Fudenberg和Levine(2006)表明,患者理性代理人不需要做足够的实验来暗示向后诱导完美信息。稍后,我们将讨论这些文件的模型和证明是如何与我们的不同的。本文还与Kalai和Lehrer(1993)的贝叶斯学习模型相关,该模型研究了双方各有一个代理的两人博弈,因此每个自我确认的均衡路径都相当于纳什均衡,以及Esponda和Pouzo(2016),该模型允许代理进行实验,但没有描述何时以及如何发生。它还与广泛形式游戏中的文献论有界理性实验有关(例如Jehiel和Samet(2005),Laslier和Walliser(2015)),其中代理的实验规则是外源性的。我们假设每个发送者的类型在出生时就固定,而不是i.i.d.超时。Dekel、Fudenberg和Levine(2004)展示了使用各种平衡概念可能产生的一些差异,但他们没有开发出非平衡学习的明确模型。为简单起见,我们在此假设代理不知道其他玩家的报酬,并且对对方的行为策略有充分的支持优先权。我们的同伴论文Fudenbergand He(2017)假设参与者将零概率分配给其成员的主导策略,如直觉标准(Cho和Kreps,1987)、神圣均衡(Banks和Sobel,1987)和合理化自我确认均衡(Dekel、Fudenberg和Levine,1999)。在那里,我们分析了由此产生的微观平衡与过去工作中的结果相比的情况。2模型2.1信令游戏符号信令游戏有两个玩家,一个发送者(玩家1,“她”)和一个接收者(玩家2,“他”)。

15
大多数88 在职认证  发表于 2022-5-31 03:43:11
根据之前的λ,从一个有限集Θ中提取出签名者的类型∈ (Θ)λ(θ)>0表示所有θ。发送方有一组有限的信号,接收方有一组有限的动作。发送方和接收方的效用函数为u:Θ×S×A→ R和u:Θ×S×A→ R相应地。玩游戏时,发送者知道自己的类型并发送信号s∈ S到接收器。接收器观察信号,然后以动作a作出响应∈ A、 最后,实现了支付。发送方π=(π(·|θ))θ的行为策略∈Θ是信号上的一类偶然混合。为所有发送者行为策略集写入∏。接收机π=(π(·s))s的一种行为策略∈Sis a信号或有混合作用a。所有接收器行为策略集的写入∏。2.2个体代理学习我们现在建立一个学习模型,将给定的信号博弈作为阶段博弈。在这一小节中,我们将解释单个代理的学习问题。在下一小节中,我们通过描述一个学习代理的社会来完成学习模型,每个学习代理被随机匹配到每个阶段玩签名游戏。时间是离散的,所有代理都是具有几何分布寿命的有理贝叶斯。它们以概率0在周期之间存活≤ γ<1,未来公用设施流量进一步贴现0≤ δ<1,因此他们的目标是最大化P的期望值∞t=0(γδ)t·ut。此处,0≤ γδ<1是有效贴现系数,utis是从今天开始的支付期。在出生时,每个代理都被分配到信号博弈中的一个角色:要么作为θ类型的发送方,要么作为接收方。代理人知道自己的角色,这是终身不变的。每个周期,每个代理都是随机的,(十) 表示集合X上概率分布的集合。为了简化符号,我们假设在任何信号之后,相同的一组动作都是可行的。

16
何人来此 在职认证  发表于 2022-5-31 03:43:14
这对于我们的结果来说并不缺乏普遍性,因为当接收者以“不可能”的动作回应信号时,我们可以让他获得非常消极的回报。并匿名与对手进行配对,玩信号游戏,游戏的胜负决定了代理人在这段时间内的报酬。在每个周期结束时,代理观察自己比赛的结果,即发送的信号、响应的动作和发送者的类型。他们不会观察对手的身份、年龄或过去的经历,也不会观察接收者对不同信号的反应。代理更新他们的信念,并在下一阶段与新的随机对手再次玩信号游戏,前提是他们还活着。经纪人认为他们面临着一个固定但未知的对手总比赛分布,因此他们相信他们的观察结果是可以交换的。我们认为,在许多情况下,这是一种似是而非的假设,因此我们预计,当平稳性大致正确时,代理将保持其信念,但如果有明显的相反证据,则会拒绝它,因为存在强烈的时间趋势或高频周期。在我们分析的稳态中,环境确实是恒常的。形式上,每个发送方在接收方的聚合行为策略上都有一个先验密度函数,g:π→ R+,积分为1。类似地,每个接受者天生就具有比发送者行为策略更高的先验密度,g:π→ R+。我们将gon信号s的边缘分布表示为g(s),因此g(s)(π(·| s))是新发送者优先于接收器如何响应信号s的密度。同样,我们表示气体g(θ)的θ边缘,因此g(θ)(π(·|θ))是新接收器优先于π(·|θ)的密度∈ (S) 。重要的是要记住,甘德·加尔的信念高于对手的策略,而不是策略本身。

17
大多数88 在职认证  发表于 2022-5-31 03:43:17
一个新的发送方期望s对beRπ(·| s)·g(π)dπ的响应,而一个新的接收方期望θ类型播放rπ(·|θ)·g(π)dπ。我们现在陈述了一个关于代理先验的正则性假设,该假设将在整个过程中保持不变。定义1。如果(i),则先验g=(g,g)是正则的。[independence]g(π)=Qs∈Sg(s)(π(·| s))和g(π)=Qθ∈Θg(θ)(π(·|θ))。(二)。在∏的内部,gis连续且严格正。接收方的payoff揭示了发送方将payoff一般分配给终端节点的类型。如果接收者的支付函数独立于发送者的类型,那么他对它的信念是不相关的。如果接收人确实关心发送者的类型,但既没有观察到发送者的类型,也没有观察到他自己实现的回报,那么一个伟大的年轻人可以持续存在,如Dekel、Fudenberg和Levine(2004)。请注意,代理的先验信念超过了对手的总博弈(即∏或∏),而不是超过了对手群体中行为策略的普遍分布(即。(π)或(π)),因为在我们的匿名随机匹配假设下,这些在观察上对我们的代理是等效的。例如,一个接收者无法区分一个所有类型θ在信号和搜索周期之间50-50随机的社会,和另一个类型θ的一半总是玩sw,而另一半总是玩s的社会。还要注意的是,因为代理相信系统处于稳定状态,他们不关心日历时间,也不相信它。Fudenberg和Kreps(1994)假设代理将其观测值是否可交换的非贝叶斯统计测试附加到假定可交换性的贝叶斯模型中。(iii)。

18
mingdashike22 在职认证  发表于 2022-5-31 03:43:20
对于每种类型θ,都有正常数α(θ)ss∈假设π(·|θ)7→g(θ)(π(·θ))Qs∈Sπ(S |θ)α(θ)S-1是一致连续的,在θ型行为策略集∏(θ)的相对内部远离零。独立性确保了接收者不会通过观察其他类型θ6=θ的行为来学习θ类型的游戏,发送者也不会通过实验其他信号s6=s来学习接收者对信号s的反应。例如,这意味着在Cho和Kreps(1987)的sbeer-quiche游戏中,发送者不会通过吃蛋奶饼来学习接收者对啤酒的反应。gand gimplies的非教条主义性质表明,代理从未看到他们分配了零先验概率的观察结果,因此在任何历史之后,他们都有一个明确的优化问题。非教条主义先验也意味着足够大的数据集可以超过先验信念(Diaconis和Freedman,1990)。(iii)中的精确性假设确保GBE在∏边界附近像幂函数。任何在∏满足条件下严格为正的密度,就像迪里克莱分布一样,迪里克莱分布是与活动游戏相关的先验分布(Fudenberg和Kreps,1993)。θ型年龄t发送者的历史记录集是Yθ[t]:=(S×A)t,其中每个周期,历史记录记录发送的信号和接收方对手的响应动作。θ型所有历史的集合是Yθ的并集:=S∞t=0Yθ[t]。θ型动态优化问题有一个最优策略函数σθ:Yθ→ S、 其中σθ(yθ)是具有历史yθ的类型θ下次玩信号游戏时将发送的信号。类似地,年龄t的接收者的历史集是Y[t]:=(Θ×S)t,其中每个时期,历史记录了其发送者对手的类型和她发送的信号。所有接收器历史记录的集合为unionY:=S∞t=0Y[t]。

19
可人4 在职认证  发表于 2022-5-31 03:43:23
接收者的学习问题允许一个最优策略函数σ:Y→ 其中σ(y)是一个有历史的接受者在下一次比赛中应该采取的纯策略。2.3随机匹配和聚合游戏我们在一个具有连续代理的确定性平稳模型中分析学习,如Fudenberg和Levine(1993,2006)。一项创新是,我们让一生都遵循一个几何锥。我们可以想象,在学习环境中,发送者相信对各种信号的反应是相关的,但独立性是一个自然的特例。由于我们的代理是预期效用最大化者,因此假设每个代理使用确定性策略规则是不失一般性的。如果存在一个以上的此类规则,我们可以任意定义一个。当然,最优策略σθ和σ取决于先验g以及有效贴现因子Δγ。在没有出现混淆的情况下,我们会抑制这些依赖关系。分布,而不是早期论文中假设的有限和确定性寿命,因此我们可以使用Gittins指数。社会包含一个单位质量的接受者角色中的代理人,以及每个θ的θ型角色中的质量λ(θ)∈ Θ。如第2.2小节所述,每个代理具有0≤ γ<1在每个周期结束时存活的机会和互补机会1- 死亡的γ。为了保持人口规模,(1- γ) 新接收机和λ(θ)(1- γ) 每一个时期,新型θ都在社会中诞生。每个时期,社会中的代理人都被随机均匀地匹配,以玩信号游戏。

20
能者818 在职认证  发表于 2022-5-31 03:43:27
根据大数定律的精神,每个发送者都有概率(1- γ) γtof与年龄为t的接收器匹配,而每个接收器具有概率λ(θ)(1- γ) γtof与θ型年龄t匹配。学习模型的状态ψ由具有每个可能历史的agent的质量描述。我们把它写成ψ∈ (×θ)∈Θ(Yθ))×(Y) 。我们用ψθ来表示状态ψ的分量∈ (Yθ)和ψ∈ (Y) 。给定代理的最优策略,代理的每个可能历史完全决定了该代理在下一场比赛中的表现。发送方策略函数σθ是从发送方历史到信号的映射,因此它们自然扩展到从发送方历史分布到信号分布的映射。也就是说,给定策略函数σθ,每个状态ψ诱导一个聚合行为策略σθ(ψθ)∈ (S) 对于每种类型的θ总体,我们将σθ的域从Yθ扩展到(Yθ)以自然方式:σθ(ψθ)(s):=ψθ{Yθ∈ Yθ:σθ(Yθ)=s}。(1) 类似地,状态ψ和最优接收方策略σ共同导致接收方总体的聚合行为策略σ(ψ),其中σ(ψ)(a | s):=ψ{y∈ Y: σ(Y)(s)=a}。我们将研究该学习模型的稳态,将在第5节中更精确地定义。粗略地说,稳态是指当代理使用其最优策略时,不确定地自我复制的状态ψ。换句话说,一个稳定的状态诱导了一个关于社会中信号博弈的时间不变分布。假设今天社会处于稳定状态,我们测量θ型在今天的比赛中发出特定信号的比例。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 13:28