楼主: 能者818
1286 66

[量化金融] 信号游戏中的学习和类型兼容性 [推广有奖]

31
mingdashike22 在职认证  发表于 2022-5-31 03:44:02
在聚合学习模型中,给定发送者一生中遇到的响应序列取决于随机匹配过程的实现,因为不同的接收者有不同的历史,对给定信号的响应也不同。我们可以使用一种称为“预编程响应路径”的设备,对所有可能的随机匹配实现序列进行索引。为了表明更兼容的类型更频繁地播放给定信号,必须显示这种比较在每个预编程响应路径上都有效,从而耦合θ和θ类型的学习过程。我们将展示上述直觉延伸到具有任意数量信号的信号游戏和任何预先编程的响应路径。这源于Bellman(1956)关于Bernoulli bandits的定理2。定义5。预编程响应路径A=(a1,s,a2,s,…)s∈Sis以×s为单位的元素∈S(A)∞).预编程响应路径是接收器动作的有限序列的| S |元组,每个信号一个序列。对于给定的预编程响应路径a,我们可以想象以一种新的类型θ开始,并以以下编程方式生成每个周期的接收器播放:当发送方播放第j次s时,用接收器动作aj,s进行响应。(如果发送方发送五次,然后发送s6=s,她得到的响应是sis a1,s,而不是a6,s。)对于每个周期应用σθ的类型θ,a归纳了实验和响应的确定历史,我们表示yθ(a)。诱导历史yθ(a)可用于计算R[a](·|θ),即预编程响应路径a诱导的θ类型在整个生命周期内的信号分布。也就是说,R[a](·|θ)只是沿历史yθ(a)发送的所有信号的混合,权重为(1-γ) γt-1转向周期t内的信号。现在考虑一种θ型面向动作,该动作由每个周期的接收器行为策略π产生i.i.d.,如Rin备注2的解释所示。

32
可人4 在职认证  发表于 2022-5-31 03:44:05
这个数据生成过程相当于根据合适的分布在时间0绘制随机预编程响应路径a,然后使用a生成所有接收器动作。也就是说,R[π](·|θ)=RR[a](·|θ)dπ(a),其中我们滥用符号并使用dπ(a)表示与π相关的预编程响应路径上的分布。重要的是,任何两种类型的θ和θ都面临着相同的分布覆盖编程响应路径,因此为了证明它所支持的命题,可以显示R[a](s |θ)≥R[a](s |θ)表示所有a.证明。对于t≥ 0,写入ytθ,将有限历史yθ截断为第一个t周期,y∞θ: =yθ。给定θ类型的有限或有限历史ytθ,信号计数函数#(s | ytθ)返回信号s在ytθ中出现的次数。(我们需要此计数功能,因为预编程响应路径生成的接收器播放每个周期取决于到目前为止每个信号发送的次数。)如上所述,我们只需要显示R[a](s |θ)≥ R[a](s |θ)。设a,并在θ型在诱导历史yθ(a)中第j次发送信号的周期内写入θjf。如果不存在此类周期,则设置Tθj=∞. 由于R[a](·|θ)是信号inyθ(a)上的加权平均值,随后的信号的权重减小,为了证明R[a](s |θ)≥ R[a](s |θ)它可以表示Tθj≤ Tθj对于每个j。为了实现这一目标,我们将通过归纳法证明一系列陈述:陈述j:提供Tθjis定义,#s | yTθjθ(a)!≤ #s | yTθjθ(a)!对于所有s6=s。对于每个j,其中Tθj<∞, 语句j意味着在第j次发送sfo之前发送每个信号s6=sb的θ类型周期数小于执行相同操作所花费的周期数θ。因此,可以得出θ比θ更快地发送到第j次,即Tθj≤ Tθj。

33
kedemingshi 在职认证  发表于 2022-5-31 03:44:08
最后,如果Tθj=∞, 那么显然Tθj≤ ∞ = 现在仍然需要通过归纳法来证明语句序列。语句1是基本情况。通过矛盾的方式,假设Tθ<∞ 和#s | yTθθ(a)!>#s | yTθθ(a)!对于一些s6=s,则有一些最早的周期t*< Tθ,其中#s | yt*θ(a)> #s | yTθθ(a)!,其中θ型在sin周期t中起作用*, σθ(yt*-1θ(a))=s。但根据施工,在周期t结束时*- 1θ型在Tθ周期内发送的次数实际上与θ型在Tθ周期内发送的次数相同- 1,以便#s | yt*-1θ(a)= #s | yTθ-1θ(a)!。此外,这两种类型都没有发送syet,所以#s | yt*-1θ(a)= #s | yTθ-1θ(a)!。因此,θ型在接收器对信号和周期t的反应上保持相同的后验值*- 1就像θ型在周期Tθ时所做的那样- 1、索比定理1,s∈ arg max^s∈SIθ,^s,yTθ-1θ(a)==> I(θ,s,yt*-1θ(a))>I(θ,s,yt*-1θ(a))。(4) 然而,通过Tθ的构造,我们得到了σθyTθ-1θ(a)!=s、 通过Gittins指数政策的最优性,方程(4)的左侧得到满足。但是,同样通过Gittins指数政策的最优性,方程(4)的右侧与σθ(yt)相矛盾*-1θ(a))=s。因此,我们已经证明了陈述1。现在假设语句j对所有j都成立≤ K、 我们证明了语句K+1也成立。如果θK+1是有限的,那么TθKis也是有限的。归纳假设显示了#s | yTθKθ(a)!≤ #s | yTθKθ(a)!在下面的等式和证明中的其他地方,我们滥用符号,将I(θ,s,y)写入平均I(θ,s,g(·| y),Δγ),这是通过更新之前的gusing历史y获得的信号s在后面的θ型Gittins指数,具有有效的贴现因子Δγ。对于每个s6=s。假设有一些s6=s,其#s | yTθK+1θ(a)!>#s | yTθK+1θ(a)!。与前面的不等式一起,这意味着在第K次玩SFO和第(K+1)次玩SFO之间的某个时间,为“#s | yTθK+1θ(a)!+1#-次玩θ。

34
mingdashike22 在职认证  发表于 2022-5-31 03:44:11
也就是说,如果我们推杆*:= min(t:#(s | ytθ(a))>#s | ytθK+1θ(a)!),然后TθK<T*< TθK+1。通过建造t*,#s | yt*-1θ(a)= #s | yTθK+1-1θ(a)!,还有#s | yt*-1θ(a)= K=#s | yTθK+1-1θ(a)!。因此,θ型在接收器对信号和周期t的反应上保持相同的后验值*- 1,就像θ型在周期TθK+1时所做的那样- 与基本情况一样,我们可以调用定理1来证明θ不可能扮演sin周期t*θ起正弦周期TθK+1的作用。这表明,通过归纳,语句j对每个j都是真的。4.3总接收方响应我们现在转向接收方的问题。每一个新的接收者都认为自己面临着一个固定但未知的格雷格盖特发送者行为策略π,其常规的前g给出了对π的信念。为了最大限度地发挥其预期效用,接收者必须学会利用个人经验从信号中推断发送者的类型。与发送方的最优策略可能涉及实验不同,接收方的问题只涉及被动学习。由于接受者在一场比赛中观察到相同的信息,无论他的行动如何,最优策略σ(y)只是最好地响应了历史y定义6得出的后验信念。接收机f的单周期前向映射:(Y) ×π→ (Y) isf[ψ,π](Y,(θ,s)):=ψ(Y)·γ·λ(θ)·π(s |θ)和f() := 1.- γ。与发送方的单周期正向映射fθ一样,如果今天接收方总体中的历史分布为ψ,且发送方总体的总间隙为π,则f[ψ,π]描述了明天接收方历史上的新分布。我们写ψπ:=limT→∞fT(ψ,π),由π处的发送者种群的作用所导致的Yin上的长期分布,这与初始状态ψ的特定选择无关。定义7。

35
nandehutu2022 在职认证  发表于 2022-5-31 03:44:14
接收器总响应R∏→ πisR[π](a | s):=ψπ(y:σ(y)(s)=a),其中ψπ:=limT→∞ψ为任意接收态的fT(ψ,π)。我们感兴趣的是R[π]对π(s |θ)形式的不等式的响应程度≥π(s |θ)嵌入在π中,例如θsθ(引理2)。为此,对于任何两种类型的θ,我们定义了Pθ。θ是指θ与θ的比值比超过其前一比值比的信念,即isPθ。θ: =(p∈ (Θ):p(θ)p(θ)≤λ(θ)λ(θ))。(5) Ifπ(s |θ)≥ π(s |θ),π(s |θ)>0,并且接收者知道π,那么接收者在观察集合Pθ中的sfalls后对Sender类型的后验信念。θ。下一个引理表明,在π(s |θ)足够大且接收器寿命足够长的附加规定下,R[π]对Pθ的响应最好。当sis发送时,θ的概率很高。对于P (Θ),我们让br(P,s):=Sp∈最大功率∈Au(p,s,a)!;这是一组对s的最佳反应,得到了P.引理3中某些信念的支持。固定正则先验g、类型θ、θ和信号sbe。对于每个 > 0,存在c>0和γ<1,因此对于任何0≤ δ<1,γ≤ γ<1,n≥ 1,如果π(s |θ)≥ π(s |θ)和π(s |θ)≥ (1)- γ) nC,thenR[π](BR(Pθ.θ,s)| s)≥ 1.-n- .这个引理给出了R[π]最好响应Pθ的概率的下界。θaftersignal s。请注意,该界仅适用于生存概率γ,其接近于1,因为当接收器的寿命较短时,他们不需要获得足够的数据来超过其优先级。还请注意,当π(s |θ)比(1)大时,更多的接收机了解兼容性条件- γ) 几乎所有的都在n的极限范围内 ∞.引理3的证明依赖于Fudenberg、He和Imhof(2017)关于在罕见事件之后更新贝叶斯后验概率的定理2,其中罕见事件对应于观测θplay s。

36
能者818 在职认证  发表于 2022-5-31 03:44:17
详情见附录A.3。我们在这里滥用了符号,把u(p,s,a)写成pθ∈Θu(θ,s,a)·p(θ)。解释条件π(s |θ)≥ (1)- γ) nC,回想一下,具有生存机会γ的代理的典型寿命为1-γ。如果π描述发送方群体中的聚合作用,那么θ型平均作用为sfor1-γ·π(s |θ)周期。所以当一个典型的θ型在nC周期内起稳定作用时,这个引理提供了1的界-n-  关于BR(Pθ.θ,s)中的接收者反应份额。注意,假设θ对nC周期起作用并不要求π(s |θ)作为γ远离0→ 1、为了预览,下一节中的引理4将确定,对于给定类型,非弱平衡支配的信号被有效地播放。通常,当δ和γ都接近1.5稳态时,引理3会对聚合播放产生影响。第4节分别研究了发送方和接收方的学习问题。在本节中,我们将转向双边学习问题。我们将首先确定稳态策略,即信号游戏策略π*其中π*和π*是相互的聚合响应,然后使用我们以前的结果描述稳态。5.1稳态、δ-稳定性和患者稳定性我们介绍了一个周期的前向映射fθ和fin第4节,它通过学习动力学和生灭过程描述了状态ψt这个周期到状态ψt+1下一个周期之间的确定性过渡。更精确地说,ψt+1θ=fθ(ψtθ,σ(ψt))和ψt+1=f(ψt,(σθ(ψtθ))θ∈Θ)。稳态是一个固定点ψ*此过渡贴图的。定义8。

37
能者818 在职认证  发表于 2022-5-31 03:44:20
A状态ψ*是稳态,如果ψ*θ=fθ(ψ*θ、 σ(ψ)*)) 对于每个θ和ψ*= f(ψ)*, (σθ(ψ)*θ) )θ∈Θ)。正则先验g和0的所有稳态集≤ δ、 γ<1表示ψ*(g,δ,γ),而稳态策略文件集为∏*(g,δ,γ):={σ(ψ)*) : ψ*∈ ψ*(g,δ,γ)}。与稳态相关的策略文件代表了游戏的时不变分布,因为每个时期代理死亡时丢失的信息正好平衡了代理通过学习该时期获得的信息。这意味着学习者的可交换性假设将在任何稳态下得到满足。我们现在给出一个等价的刻划∏*(g,δ,γ)根据Rand R。证明见附录A.4。提案2。π*∈ ∏*(g,δ,γ)当且仅当Rg,δ,γ(π*) = π*和Rg,δ,γ(π*) = π*.(注意,这里我们明确了Rand-Ron参数(g,δ,γ)的依赖关系,以避免混淆。)也就是说,稳态策略文件是一对相互聚合的回复。下一个命题保证始终存在至少一个稳态战略文件。提案3。∏*(g,δ,γ)在范数拓扑中是非空且紧的。证据见在线附录。我们确定ψ*(g,δ,γ)在分布空间上是非空且紧的`范数,这立即暗示了∏的相同性质*(g,δ,γ)。直观地说,如果生命周期是有限的,那么历史集是有限的,所以状态集是有限维的。这里的单周期正演图f=((fθ)θ∈Θ,f)是连续的,因此布劳尔不动点定理的usualversion适用。对于几何寿命,非常旧的代理很少,因此在某个较大的T处截断代理的寿命可以得到一个很好的近似值。

38
能者818 在职认证  发表于 2022-5-31 03:44:23
与直接使用这些近似不同,我们的证明表明,在范数f下是连续的,并且(由于几何寿命),可行状态形成了一个紧凑的局部凸hausdorff空间。这让我们可以求助于该领域的不动点定理。我们现在关注迭代limitlimδ→1limγ→1∏*(g,δ,γ),即δ和γ接近1的稳态策略文件集,其中我们首先将γ发送到1,保持δ固定,然后将δ发送到1。定义9。对于每个0≤ δ<1,策略文件π*如果存在序列γk,则在g下δ稳定→ 1和相关的稳态策略序列π(k)∈ ∏*(g,δ,γk),使得π(k)→ π*. 战略文件π*如果存在δk序列,则在g下耐心稳定→ 1和相关的策略序列π(k),其中每个π(k)在g和π(k)下是δk-稳定的→ π*.战略文件π*如果在某些常规的先验g下是耐心稳定的,则是耐心稳定的。启发式地,耐心稳定的策略是当代理变得非常耐心(因此发件人愿意进行许多实验)和长寿命(因此双方的代理都可以学习足够的数据以超过其先验)时,学习结果的限制。

39
可人4 在职认证  发表于 2022-5-31 03:44:26
正如过去关于稳态学习的研究(Fudenberg和Levine,1993年,2006年)一样,这种限制顺序的原因是为了确保大多数代理拥有足够的数据,从而停止实验并做出近视最佳反应。我们不知道我们的结果是否扩展到其他限制顺序;我们在概述命题5.5.2关于δ-稳定性和患者稳定性的初步结果后,解释了下面涉及的问题。γ接近1时,代理人正确地了解了他们频繁使用的策略的后果。但在一定的耐心水平下,他们可能会选择很少或从不尝试,因此可能会对他们不玩的策略的后果保持错误的信念。下一个结果正式表明了这一点,这与Fudenberg和Levine(1993)的结果相似,即δ稳定的战略文件是自我确认的平衡。如果代理最终并没有随着年龄的增长而停止试验,那么即使大多数代理拥有近似正确的信念,总体博弈也不必接近纳什均衡,因为大多数代理不会对其信念做出(静态)最佳反应。提案4。假设战略文件π*在正则先验下是δ-稳定的。然后对于每种类型的θ和带π的信号s*(s |θ)>0,s是对某些π的最佳响应∈ θ型为∏,此外π(·| s)=π*(·| s)。同样,对于任何信号s,π*(s |θ)>0,对于至少一种类型的θ,π*(·| s)支持对π生成的贝叶斯信念的纯最佳响应*在s之后,我们在在线附录中证明了这一结果。证明的思想如下:如果信号的正概率在极限内,那么发送方会多次播放它,因此接收方会在给定的θs中学习正确的后验分布。由于接收方没有激励实验,他们在s之后的行为将是对这一正确后验信念的最佳反应。

40
kedemingshi 在职认证  发表于 2022-5-31 03:44:29
对于发送方,假设π*(s |θ)>0,但s不是θ型对任何π的最佳响应∈ 与π匹配的∏*(·| s)。然而,如果发送者多次玩s,那么她对π(·| s)的信念很可能接近π*(·| s),所以玩s不是目光短浅的最佳选择。这意味着类型θ对于信号s具有持久的选项值,这与该选项值必须随样本大小收敛到0的事实相矛盾。备注3。这个命题说,每种发送者类型都在对均衡路径上正确的接收者游戏的信念做出最佳反应,接收者对发送者的总游戏做出聚合最佳反应。因此,δ稳定的结果是对自我确认平衡的厌恶,不同类型的发送者可以有不同的信念。此外,如下一个示例所示,即使所有类型的新发送者在接收者如何发挥作用方面都具有相同的优先权,发送者对接收者的聚合策略的信念中的这种异质性也会在δ稳定的策略中内生产生。示例2。考虑以下博弈:Dekel、Fudenberg和Levine(2004)定义了静态Bayesiangames中的类型异质自确认平衡。正如他们所指出的,当每个代理的类型固定时,这种异质性是很自然的,但如果每个代理的类型在每个时期都是i.i.d.绘制的,则不存在这种异质性。为了将其定义扩展到信号游戏,我们可以从该论文中定义“信号函数”yi(a,θ),以尊重游戏的广泛形式。另请参见?。接受者对所有的反应都是不同的。确定接收方的任何常规优先权g,以及发送方的任何常规优先权g。设g(s)在a上为Beta(1,3),分别为。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 13:07