楼主: 能者818
1285 66

[量化金融] 信号游戏中的学习和类型兼容性 [推广有奖]

21
nandehutu2022 在职认证  发表于 2022-5-31 03:43:30
在所有经纪人根据他们最新的信念修改他们的策略,并且所有的出生和死亡都发生之后,θ型球员在明天的比赛中的表现将与今天一样。请记住,我们有固定的确定性策略函数。3发送方的最优策略和类型兼容性本节研究发送方的学习问题。我们将证明,在learningmodel中,不同发送者类型的支付结构的差异会对他们的行为产生一定的限制。第3.1小节指出,发送方面对的是一个多武装匪徒,因此Gittins索引对其最优策略进行了描述,并展示了如何将信号的Gittins索引与预期发送方支付效果与接收方的特定混合策略相关联。在第3.2小节中,我们定义了类型兼容性,它形式化了θ型与给定信号s的“兼容性”比θ型更大的含义。类型兼容性的定义是静态的,因为它只取决于一次性信号游戏中两种类型的支付函数。第3.3小节将类型兼容性与适用于动态学习模型的Gittins索引相关联。第4节中的引理2使用这种关系表明,如果θ型比θ型更兼容信号,那么面对接收器播放的任何固定分布,θ型填充比θ型填充在聚合中发送的频率更高。3.1最优策略和多臂BanditsEach类型θ发送方认为她面临一个固定但未知的聚合接收方行为策略π,因此在她发送信号s的每个周期,她认为响应来自一些π(·| s)∈ (A) ,跨时期的i.i.d。

22
能者818 在职认证  发表于 2022-5-31 03:43:33
因为她对各种信号反应的信念是独立的,所以她的问题相当于一个打折的多武装匪徒,信号是∈ Sas手臂,其中手臂s的奖励根据u(θ,s,π(·| s))分布。让νs∈ ((A) )是对信号s的混合回复空间的信念,并设ν=(νs)s∈Sbe是此类信念的证明。为θ类型的信号s的Gittins指数写入I(θ,s,ν,β),对各种信号后的接收器播放进行信念ν,并使用有效的贴现因子β=Δγ,sothatI(θ,s,ν,β):=supτ>0EνsnPτ-1t=0βt·u(θ,s,as(t))oEνsnPτ-1t=0β至。(2) 这里as(t)是接收方的响应,发送方观察到发送信号s的第t次时间,τ是停止时间,期望Eν是响应序列{as(t)}t≥0取决于发送方对信号s的响应的信念ν。Gittins指数定理(Gittins,1979)表明,在每个正概率历史yθ之后,θ类型发送方的最优策略σθ发送具有最高Gittins指数的信号,也就是说,τ=t是否仅取决于as(0),as(1)。。。,as(t- 1) 。Gittins指数可以解释为一个辅助优化问题的值,其中θ型选择每个周期,要么发送信号s,根据π(·| s)绘制的随机接收器动作获得支付,要么永远停止。

23
mingdashike22 在职认证  发表于 2022-5-31 03:43:36
辅助问题的目标是最大化每个期间的预期贴现支付,直到停止,因为方程式(2)的分子描述了直到停止的预期贴现支付总额,而分母显示了直到停止的预期贴现期数。对于后验信念(νs)下的类型∈这是由yθ引起的。重要的是,我们可以重新构建方程(2)中定义Gittins指数的目标函数,将其与一次性信号博弈支付结构联系起来。引理1。对于每个信号s、停止时间τ、置信度νs和贴现因子β,存在π2,s(τ,νs,β)∈ (A) 所以对于每个θ,EνsnPτ-1t=0βt·u(θ,s,as(t))oEνsnPτ-1t=0β至=u(θ,s,π2,s(τ,νs,β)),也就是说,当方程(2)中的停止问题在任意停止时间τ进行评估时,payoff等于发送方在一次信令博弈中与接收方策略π2,s(τ,νs,β)进行博弈的预期效用。引理1的证明见附录A.2,并说明了如何构造π2,s(τ,νs,β),这可以解释为在造林前观察到的接收器作用的贴现时间平均值。为了说明构造,假设νsis在s之后支持两种纯接收机策略:π(a | s)=1或π(a | s)=1,两种策略的可能性相等。假设alsou(θ,s,a)>u(θ,s,a)。考虑指定在接收器第一次播放a之后停止的停止时间τ。然后ais的贴现时间平均频率:P∞t=0βt·Pνs[τ≥ t和接受者在t]P期间演奏∞t=0βt·Pνs[τ≥ t] =0.51+P∞t=1βt·0.5=1- β2- β。Soπ2,s(τ,νs,β)(a)=1-β2-类似地,我们可以计算π2,s(τ,νs,β)(a)=2-β、 这表明π2,sinded对应于每个β的接收器作用的混合物。

24
kedemingshi 在职认证  发表于 2022-5-31 03:43:39
Asβ→ 1,这种混合收敛于总是玩a的纯策略,因此u(θ,s,π2,s(τ,νs,β))收敛于tou(θ,s,a),即s之后θ型的最高可能收益;这与β趋于1时,s后θ的Gittins指数收敛到最高回报这一事实相似,这支持了νs.3.2信号游戏中的类型兼容性。我们现在引入了一个概念,即在一次性信号游戏中,两种类型与给定信号的相对兼容性。定义2。信号类型与θ比θ更兼容,写为θsθ,if对于每个π∈ π使得u(θ,s,π(·| s))≥ maxs6=su(θ,s,π(·s)),我们有u(θ,s,π(·s))>maxs6=su(θ,s,π(·s))。换句话说,θsθ意味着每当θ对某个接收方行为策略π是弱的最佳响应时,它也是θ对π的严格最佳响应。下面的命题表示兼容性顺序是传递的,本质上是不对称的。其证明见附录A.1。提案1。(i) 。sis可传递。(二)。除非sis对θ和θ都严格占优,或对θ和θ都严格占优,θsθ表示θ6sθ。要检查相容性条件,必须考虑∏中的所有策略,就像神圣平衡中的信仰限制包括对各种信仰的所有可能的混合最佳反应一样。然而,当发送者的效用函数在u(θ,s,a)=v(θ,s)+z(a)的意义上是可分离的,如Spence(1973)的就业市场信号博弈和Cho和Kreps(1987)的啤酒博弈(如下所示),θsθisv(θ,s)- v(θ,s)>maxs6=sv(θ,s)- v(θ,s)。这可以解释为,相对于θ,sis是θ的成本最低的信号。在在线附录中,我们给出了θ的一般有效条件一般payoff函数下的sθ。示例1。

25
kedemingshi 在职认证  发表于 2022-5-31 03:43:43
(Cho和Kreps(1987)的啤酒蛋饼游戏)发送方(P1)要么强(θ强)要么弱(θ弱),先验概率λ(θ强)=0.9。寄件人选择要么喝啤酒,要么早餐吃乳蛋饼。接收者(P2)观察这个早餐选择,而不是发送者的类型,选择是否与发送者对抗。如果发送方θ较弱,接收方则倾向于战斗。如果发送方是θ强的,则接收方宁愿不打架。此外,θstrong早餐更喜欢啤酒,而θweakp早餐更喜欢蛋奶饼。这两种类型的人都不喜欢在他们最喜欢的早餐前被吵架。这个游戏有可分离的发送方效用,v(θstrong,Beer)=v(θ弱,Quiche)=1,z(Fight)=0,z(NotFight)=2。所以我们有θstrong啤酒θ淡。很容易看出,在每个纳什均衡π中*, 如果θsθ,然后π*(s |θ)>0意味着π*(s |θ)=1。根据Bayes规则,这意味着在每个onpath信号之后,接收器的平衡信念p表示限制p(θ| s)p(θ| s)≤λ(θ)λ(θ)ifθsθ。因此,在啤酒蛋饼游戏的每一个纳什均衡中,如果发送方选择的啤酒具有积极的事前概率,那么接收方认为发送方在看到该信号后态度强硬的优势比不能小于前一优势比。我们的主要结果,定理2,本质上表明,对于任何可以通过患者和长寿药物的稳态结果来近似的策略,即使对于有效路径信号,也可以满足相同的基于相容性的限制。特别是,这允许我们在看到啤酒处于平衡状态后,对接收者的信念施加限制,而没有任何类型的发送者播放此信号。3.3类型兼容性和Gittins索引我们现在将给定信号的类型兼容性顺序与相关Gittins索引连接起来。定理1。

26
mingdashike22 在职认证  发表于 2022-5-31 03:43:46
θsθ当且仅当对于每个β∈ [0,1)和信念ν,I(θ,s,ν,β)的每个属性≥ maxs6=sI(θ,s,ν,β)意味着I(θ,s,ν,β)>maxs6=sI(θ,s,ν,β)。也就是θsθ当且仅当当s是θ的(弱)最高Gittins指数时,它具有θ的最高指数,前提是这两种类型具有相同的信念和相同的搜索因子。证明包括重新制定引理1中的Gittins指数,然后应用兼容性定义。证据步骤1:仅当。假设θsθ和fix一些β∈ [0,1)和先验信念ν。假设I(θ,s,ν,β)≥maxs6=sI(θ,s,ν,β)。我们证明了I(θ,s,ν,β)>maxs6=sI(θ,s,ν,β)。在任何s6=s的臂上,θ型可以使用(次优)停止时间τθs,通过引理1,它产生预期的每周期支付u(θ,s,πs(νs,τθs,β))。这是θ型arm-sfos的Gittins指数的下界,因此结合了I(θ,s,ν,β)的假设≥maxs6=sI(θ,s,ν,β),我们得到i(θ,s,ν,β)≥ maxs6=su(θ,s,πs(νs,τθs,β))。(3) 现在确定接收器策略π∈ π乘以π(·| s):=πs(νs,τθs,β),π(·| s):=πs(νs,τθs,β),对于所有s6=s。然后可以重写方程(3)asu(θ,s,π(·| s))≥ maxs6=su(θ,s,π(·| s)),也就是说,对于θ和π,sis是弱最优的。通过θ的定义sθ,这意味着θ对π是严格最优的。根据π和引理1的定义,θ发挥任何s6=sagainstπ的预期效用等于θ臂的Gittins指数,即I(θ,s,ν,β)。另一方面,u(θ,s,π(·| s))只是I(θ,s,ν,β)的下界。这显示I(θ,s,ν,β)>maxs6=sI(θ,s,ν,β),如所需。步骤2:如果。假设θ6sθ。然后是一些接收器策略π*∈ π使得u(θ,s,π*(·| s))≥ maxs6=su(θ,s,π*(·| s)),andu(θ,s,π*(·| s))≤ maxs6=su(θ,s,π*(·| s))。Letν*是任何导致π的信念*平均来说,也就是说对于每个s,π*(·| s)=Zπ2,s∈(A) π2,sdν*s(π2,s)设β=0。

27
可人4 在职认证  发表于 2022-5-31 03:43:49
然后I(θ,s,ν*, 0)=u(θ,s,π*(·| s))对于每个θ,s,因为当决策者完全没有耐心时,Gittins指数等于近视的回报。这表示I(θ,s,ν*, 0)≥maxs6=sI(θ,s,ν*, 0)和I(θ,s,ν)*, 0)≤ maxs6=sI(θ,s,ν*, 0)。4聚合发送方和接收方响应在本节中,我们将定义并分析聚合发送方响应R:π→ π和聚合接收器响应R:π→ ∏。粗略地说,这些都是大量学习静态信号游戏中最佳响应函数的类比。如果我们确定-iπ处的人口-我从任意初始状态一段一段地运行学习模型,游戏在i种群中的分布将接近Ri[π-i] 。在第5节后面,这对(R,R)的固定点将描述学习系统的稳态。4.1聚合发送方响应为了正式定义聚合发送方响应,我们首先引入单周期转发映射。定义3。θ、fθ型单周期正演图:(Yθ)×π→ (Yθ)isfθ[ψθ,π](Yθ,(s,a)):=ψθ(Yθ)·γ·1{σθ(Yθ)=s}·π(a | s)和fθ[ψθ,π]() := 1.- γ。如果θ型总体中历史上的分布是ψθ,而接收总体的增益区是π,则θ型总体中历史上的结果分布是fθ[ψθ,π]。具体而言,将有一个1-新型θ的γ质量将没有历史。此外,如果新类型θ的最佳第一个信号为s,即σθ() = s、 那么fθ[ψθ,π](s,a)=γ·(1- γ) ·π(a | s)新发送者在第一次匹配时发送,观察动作和响应,然后存活。

28
何人来此 在职认证  发表于 2022-5-31 03:43:52
一般来说,有历史yθ且其政策σθ(yθ)规定演奏s的θ型有π(a | s)机会拥有后续历史(yθ,(s,a)),前提是她能存活到下一个时期;生存概率对应于因子γ。为fθ的T倍应用写入fTθ(Yθ),保持一些π。注意,对于任意态ψ和ψ,如果(yθ,(s,a))是长度为1的历史(即yθ=), 然后ψθ(yθ)=ψθ(yθ),因为两种状态都必须指定质量1- γ至, 所以fθ[ψθ,π]和fθ[ψθ,π]一致于Yθ[1]。迭代,对于T=2,fθ[ψθ,π]和fθ[ψθ,π]在Yθ[2]上一致,因为Yθ[2]中的每个历史可以写成Yθ的(Yθ,(s,a))∈ Yθ[1],fθ[ψθ,π]和fθ[ψθ,π]在所有Yθ上匹配∈ Yθ[1]。从归纳的角度出发,我们可以得出结论,fTθ(ψθ,π)和fTθ(ψθ,π)在所有Yθ[t]上都一致≤ 对于任意一对θ型态ψθ和ψθ。这意味着限制→∞fTθ(ψθ,π)存在,且与初始状态ψθ无关。将该极限表示为ψπθ。正如下一定义中正式指出的那样,这是从任意状态开始,并对受试者群体的playatπ进行拟合而产生的θ历史的长期分布改写。定义4。聚合发送方响应R∏→ π由r[π](s |θ):=ψπθ(yθ:σθ(yθ)=s定义,其中ψπθ:=limT→∞具有ψθ任意θ态的fTθ(ψθ,π)。也就是说,R[π](·|θ)是θ型种群中的长期聚集行为,当接收器的聚集区固定在π时。备注1。从技术上讲,rde依赖于g、δ和γ,就像σθ一样。当相关时,我们将通过向R添加适当的参数作为上标来明确这些依赖关系,但我们将主要抑制它们以减轻符号。备注2。

29
可人4 在职认证  发表于 2022-5-31 03:43:56
虽然聚合发送方响应是在聚合层面上定义的,但R[π](·|θ)也描述了单一类型θ发送方在其一生中面对从π每个周期提取的接收方播放时播放的概率分布。观察到fθ[ψθ,π]限制为Yθ[1]给出了一类θ在历史上的概率分布,该θ使用σθ并在一个周期内从π中绘制出面场:它将π(a | s)的权重放在历史(s,a)上,其中s=σθ().类似地,对于任何t,fTθ[ψθ,π]限制为Yθ[t]≤ T给出了使用σθ的人在历史上的概率分布,并从π中得出T个周期。由于ψπθ赋值概率(1- γ) γtto层集Yθ[t],R[π](·|θ)=σθ(ψπθ)是周期t区带(t=1,2,3,…)分布的加权平均值使用σθ和面对π的人,权重(1- γ) γt服从周期t分布。4.2类型兼容性和聚合发送方响应下一个引理显示了类型兼容性如何转化为对不同类型的聚合发送方响应的限制。引理2。假设θsθ。那么对于任何正则先验g,0≤ δ、 γ<1,任意π∈ π,wehave R[π](s |θ)≥ R[π](s |θ)。定理1表明,当θsθ和这两种类型有着相同的信念,如果θ扮演s,那么θ也必须扮演s。但是,即使这两种类型的新代理从相同的priorg开始,由于σθ和σθ在相同的历史之后规定了不同的实验,他们的信念在学习过程中可能会迅速分歧。

30
何人来此 在职认证  发表于 2022-5-31 03:43:59
这个引理表明,相容性仍然对发送者群体的聚合作用施加限制:无论接收者群体中的聚合作用π如何,不同类型的聚合反应中出现的频率始终与相容性顺序是同单调的s、 要获得引理2的直觉,请考虑两个类型为θSTRONG和θWEAKHOARE的新发送者学习玩示例1中的啤酒蛋饼游戏。假设他们对每个信号的反应都有相同的优先级,并且他们面对的是一系列的接受者,这些接受者被编程为在啤酒后玩拳击,而不是在蛋奶饼后玩拳击。由于观察战斗是关于信号支付的最坏消息,因此观察战斗时,信号的Gittins指数会降低。相反,信号的Gittins指数在每次观察NotFight后都会增加。Thusgiven假定接收器的播放,有n,n≥ 0,这样θstrong类型将为n个周期玩啤酒(并观察n次战斗),然后永远切换到乳蛋饼,而θweakwill类型将为n个周期玩啤酒,然后永远切换到乳蛋饼。现在我们声称n≥ n、 为了了解原因,假设n<n,并让ν是受试者在观察啤酒后打架的n个周期所诱导的总游戏的后验信念。在nperiods之后,这两种类型都会有相同的信念ν。然后,相信νtypeθweakmust play Beer whiletypeθstrong play Quiche,因此signal Beer必须具有θweakbut notθstrong的最高Gittins指数。但这与定理1相矛盾。引理2的证明依赖于类似的想法,即对接收器播放进行特定的“编程”,并研究不同类型实验的诱导路径。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-7 13:03