楼主: 能者818
1290 66

[量化金融] 信号游戏中的学习和类型兼容性 [推广有奖]

51
何人来此 在职认证  发表于 2022-5-31 03:45:05
应用Fudenberg、He和Imhof(2017)的定理2,我们可以证明接收者将推断s发送者“更可能”是θUthanθD,这意味着接收者必须在sin平衡π后将概率0分配给θdaf*.备注5。正如Fudenberg和Kreps(1988年)以及Sobel、Steel和Zapater(1990年)所指出的那样,学习和理性实验似乎“直觉地”应该引导接受者将概率0分配给均衡主导的类型,因此这一理论需要额外的假设,即均衡对接受者来说是严格的。然而,当π*对于接收器而言,不在路径严格限制上。当π*涉及接收人在s之后严格混合几个响应*, 这些反应中的一些可能会使θd比s之后的最差回报严重得多,因此θd连续出现大量这些不良反应,然后停止播放s的可能性是不消失的*.在我们的模型中,发送者一开始对接收者的发挥不确定,因此,即使是以均衡为主的信号类型,最初也可能对其进行实验。要证明这些实验不会导致接受者做出“反常”反应,需要对平衡主导型和非平衡主导型发挥作用路径信号的相对概率进行一些论证。当均衡涉及路径上的接收者随机化时,非平凡的一部分接收者可以在类型的均衡信号后发挥作用,该类型的均衡信号严格低于其在反路径信号下的最差支付。

52
何人来此 在职认证  发表于 2022-5-31 03:45:08
在这种情况下,我们看不到如何显示她曾经耐心地偏离平衡信号的概率趋向于0,因为在arow中看到大量这些不利响应的事件的概率是有界的,即使在接收者群体完全发挥他们的需求平衡策略时也是如此。然而,我们没有一个反例来证明定理的结论在没有接收器的路径严格性的情况下是失败的。示例3。在下面修改的啤酒蛋饼游戏中,与例1相比,与θweakhodrinks类型的啤酒较量的回报大幅增加,因此,现在打架是对啤酒之后先前信念λ的最好回应。由于在任何信号之后的任何信号博弈中,先验λ始终是一个可接受的信念,因此灰平衡π*与示例1不同,兼容性标准不排除这两种类型都玩蛋奶饼(受啤酒后打架的接受者支持)的情况。然而,这种平衡被强相容性准则所排除。要了解原因,请注意,这种池均衡对接收器来说是路径严格的,因为接收器在唯一的路径信号Quiche上有一个不打架的严格偏好。此外,π*不满足强兼容性标准,因为EEJ(啤酒,π*) = {θstrong}意味着Beer将概率1分配给θstrong的发送方后,唯一的强可容许信念。因此,定理3意味着这种平衡不是耐心稳定的。6讨论我们的学习模型假设代理具有几何分布的生存时间,这也是使用Gittinsindex可以解决发送者优化问题的原因之一。

53
可人4 在职认证  发表于 2022-5-31 03:45:11
如果代理具有固定的生命周期,如Fudenberg和Levine(1993,2006),他们的优化问题将不会是固定的,Gittinsindex的有限视界模拟对于有限视界多臂匪徒问题来说只是近似最优的(Ninomora,2011)。将几何寿命框架应用于其他类型的广泛形式游戏的稳态学习模型可能会证明是卓有成效的,尤其是对于我们需要比较不同玩家或玩家类型行为的游戏,以及对其他类型动态决策的研究。定理1根据两个代理对奖品的静态偏好,比较了geometriclifetime bandit问题中两个代理的动态行为。作为一个即时应用程序,考虑一个委托代理设置,其中代理面对一个手持武器的多武装匪徒∈ S、 其中S根据一些分布从ZS中领奖。主体知道代理的每周期效用函数u:∪sZs公司→ R、 但不是代理人对不同部门的价格分布的信念,也不是代理人的折扣系数。假设委托人观察到代理在第一阶段选择arm 1。委托人可以对不同的奖品和武器征收税收和补贴,将代理人的效用函数改为u。对于哪些税收和补贴,代理人在第一阶段仍然会选择武器1,而不考虑其最初的信念和折扣系数?根据定理1,答案正是那些税收和补贴,因此arm 1与u比u更兼容。我们的结果提供了一个在签名游戏中耐心稳定的策略集的上界。在Fudenberg和He(2017)中,我们为同一组提供了一个下界,并且在对先验值的额外限制下,提供了一个更清晰的上界。

54
kedemingshi 在职认证  发表于 2022-5-31 03:45:14
但综合起来,这些结果无法准确描述耐心稳定的结果。然而,我们的结果展示了博弈学习理论如何为重新定义信号博弈中的均衡集奠定了基础。在未来的工作中,我们希望研究一种以临时发送者类型为特征的学习模型。在每个周期开始时,每个发送者都会从λ中抽取一个i.i.d.来发现她在该周期的类型,而不是在出生时指定并终身固定发送者的类型。如Dekel、Fudenberg和Levine(2004)所述,当玩家不耐烦时,这会产生不同于固定类型模型的稳态。这个模型需要不同的工具来分析,因为发送者的问题变成了一个躁动不安的强盗。ReferencesBanks,J.S.和J.Sobel(1987):“信号博弈中的均衡选择”,《计量经济学》,55647-661。Bellman,R.(1956):“实验顺序设计中的问题”,《印度统计杂志》(1933-1960),16221-229。Billingsley,P.(1995):概率与度量,John Wiley&Sons。Cho,I.-K.和D.M.Kreps(1987):“信号博弈和稳定均衡”,《经济学季刊》,102179-221。Dekel,E.、D.Fudenberg和D.K.Levine(1999):“支付信息和自我确认均衡”,《经济理论杂志》,89165-185(2004):“学习玩贝叶斯游戏”,游戏与经济行为,46282-303。Diaconis,P.和D.Freedman(1990):“关于多项式概率Bayes估计的一致一致一致性”,《统计年鉴》,181317–1327。Esponda,I.和D.Pouzo(2016):“伯克-纳什均衡:用不规范模型对代理人建模的框架”,计量经济学,841093-1130。Fudenberg,D.和K.He(2017):“信号游戏中的学习和平衡问题”,Mimeo。Fudenberg,D.,K.He和L.A。

55
何人来此 在职认证  发表于 2022-5-31 03:45:17
Imhof(2017):“任意罕见事件的贝叶斯后验概率”,《国家科学院学报》,114,4925–4929。Fudenberg,D.和D.M.Kreps(1988):“游戏中的学习、实验和平衡理论”,Mimeo(1993):“学习混合均衡”,《博弈与经济行为》,5320-367(1994):“广泛形式游戏中的学习,II:实验和纳什均衡”,Mimeo(1995):“广泛形式的学习游戏I.自我确认均衡”,《游戏与经济行为》,8,20–55。Fudenberg,D.和D.K.Levine(1993):“稳态学习和纳什均衡”,《计量经济学》,第61547-573页(2006):“迷信与理性学习”,《美国经济评论》,96630-651。Gittins,J.C.(1979):“Bandit过程和动态分配指数”,《皇家统计学会杂志》。系列B(方法学),148–177。Jehiel,P.和D.Samet(2005):“通过估值学习广泛形式的游戏”,《经济理论杂志》,124129-148。Kalai,E.和E.Lehrer(1993):“理性学习导致纳什均衡”,《计量经济学》,611019–1045。Laslier,J.-F.和B.Walliser(2015):“顽固的学习”,《理论与决策》,79,51-93。尼诺·莫拉(Ni~no-Mora,J.)(2011):“计算有限地平线强盗的经典指数”,INFORMSJournal on Computing,23254–267。Sobel,J.、L.Steel和I.Zapater(1990):“信号博弈中的固定均衡合理化”,《经济理论杂志》,52304-331。Spence,M.(1973):“就业市场信号”,《经济学季刊》,87355-374。附录-降级证明A。1命题1的证明命题1:(i)。sis可传递。(二)。除非sis对θ和θ都严格占优,或对θ和θ都严格占优,θsθ表示θ6sθ。证据表示(i),假设θsθ和θsθ。

56
nandehutu2022 在职认证  发表于 2022-5-31 03:45:20
对于任意π∈ π其中,对于θ是弱最优的,对于θ必须是严格最优的,因此对于θ也是严格最优的。这表示θsθ。为了建立(ii),将接收器策略集划分为∏=∏+∪∏∪∏-, 其中,三个子集指的是使S比θ的最佳替代信号更好、不同或更差的接收机策略。如果集合∏是非空的,那么θsθ表示θ6sθ。这是因为对于任何π∈ π,信号对θ是严格最优的,但对θ只有弱最优。同时,如果∏+和∏-是非空的,则∏是非空的。这是因为Bothπ7→ u(θ,s,π(·| s))和π7→ maxs6=su(θ,s,π(·| s))是连续函数,对于任何π+∈ π+和π-∈ ∏-, 存在α∈ (0,1)使得απ++(1- α) π-∈ ∏。如果∏+为非空且θsθ,则对θ和θ都是严格占优的。如果只有∏-如果不为空,那么我们可以得到θsθ仅当sis永远不是θagainanyπ的弱最佳响应时∈ ∏。A、 引理1的证明:对于每个信号s、停止时间τ、置信度νs和贴现因子β,都存在π2,s(τ,νs,β)∈ (A) 所以对于每个θ,EνsnPτ-1t=0βt·u(θ,s,as(t))oEνsnPτ-1t=0β至=u(θ,s,π2,s(τ,νs,β))证明。步骤1:诱导混合动作。信念和停止时间τstogether定义了一个随机过程(At)t≥0空间上方a∪ {}, 在何处∈ 如果τshas未被抑制(τs>t),则A对应于周期t中看到的接收器动作,且在:= 如果τshas停止(τs≤ t) 。

57
可人4 在职认证  发表于 2022-5-31 03:45:24
枚举A={A,…,an},我们写下,i:=Pνs[At=ai]为1≤ 我≤ n记录在周期t和pt中看到接收器动作的概率,0:=Pνs[At=] = Pνs[τs≤ t] 对于在tdue至τ剃须停止的周期内看不到接收器动作的概率。给定νsandτs,我们定义信号s,π2,s(νs,τs,β)后诱导的混合作用∈ (A) by:π2,s(νs,τs,β)(A):=P∞t=0βtpt,iP∞t=0βt(1- 对于i,pt,0),使得a=ai。AsPni=1pt,i=1- pt,每t 0≥ 0,很明显,π2,s(νs,τs,β)将非负权重作用于A,其和为1,因此π2,s(νs,τs,β)∈ (A) 可能确实被视为过度接管行为的混合物。第2步:诱导混合行动和每期支付。我们现在证明,对于信号s的任何β和任何停止时间τ,停止问题中的归一化支付等于在一个周期内对π2,s(νs,τs,β)播放s的效用,即u(θ,s,π2,s(νs,τs,β))=Eνs(τs-1Xt=0βt·u(θ,s,as(t))/Eνs(τs-1Xt=0βt)。要了解为什么这是真的,请重写右侧的分母asEνs(τs-1Xt=0βt)=Eνs(∞Xt=0[1τs>t]·βt)=∞Xt=0βt·Pνs[τs>t]=∞Xt=0βt(1- pt,0),并重写分子asEνs(τs-1Xt=0βt·u(θ,s,as(t)))=∞Xt=0βt·pt,0·0 |{z}如果已经停止,则获取0+nXi=1pt,i·u(θ,s,ai){z}否则,as(t)分布为(pt,i)=nXi=1∞Xt=0βt·pt,iu(θ,s,ai)。总的来说,我们得到了所需的:Eνs(τs-1Xt=0βt·u(θ,s,as(t))/Eνs(τs-1Xt=0βt)=nXi=1”(P∞t=0βt·pt,i)P∞t=0βt(1- pt,0)#·u(θ,s,ai)=u(θ,s,π2,s(νs,τs,β))。A、 3引理3的证明引理3:让正则先验g、θ、θ类型和信号sbe固定。对于每个 > 0,存在sc>0和γ<1,因此对于任何0≤ δ<1,γ≤ γ<1,n≥ 1,如果π(s |θ)≥ π(s |θ)和π(s |θ)≥ (1)- γ) nC,thenR[π](BR(Pθ.θ,s)| s)≥ 1.-n- .我们引用了Fudenberg、He和Imhof(2017)的定理2,在我们的环境中,该定理说:让常规先验gand信号sbe固定。让0<, h<1。

58
可人4 在职认证  发表于 2022-5-31 03:45:27
存在C,使得每当π(s |θ)≥ π(s |θ)和t·π(s |θ)≥ C、 我们得到ψπy∈ Y[t]:p(θ| s;Y)p(θ| s;Y)≤1.- h·λ(θ)λ(θ)/ψπ(Y[t])≥ 1.- 式中,p(θ| s;y)是指根据历史y所诱导的后验信念,s的发送者为θ型的条件概率。也就是说,如果在t岁时,接收者会在预期C中观察到θ型发送者的实例,那么至少1-  年龄t受体的比例(本质上)下降到Pθ。θ在看到信号s后。引理3的证明计算出满足此“A要求”的接收器的比例证据我们将显示以下更强的结果:让正则先验g、类型θ、θ和信号sbe固定。对于每个 > 0,存在C>0,因此对于任何0≤ δ、 γ<1和n≥ 1,如果π(s |θ)≥ π(s |θ)和π(s |θ)≥ (1)- γ) nC,thenR[π](BR(Pθ.θ,s)| s)≥ γdn(1-γ) e类- 引理如下,因为我们可以选择一个足够大的γ<1,以便γdn(1-γ) e>1-n总体n≥ 1和γ≥ γ。对于每个0<h<1,确定Phθ。θ:=p∈ (Θ):p(θ)p(θ)≤1.-h·λ(θ)λ(θ),约定为0。很明显,每个Phθ。θ、 以及Pθ。θ本身是(Θ)。同样,Phθ。θ→ Pθ。θ为h→ 0、修复操作a∈ A、 如果所有h>0,则存在一些0<h≤(R)h以便∈ BR(Phθ,s),然后a∈ BR(Pθ,θ,s)也是由于最佳响应对应具有闭合图。这意味着/∈ BR(Pθ.θ,s),存在'ha>0,因此a/∈ BR(Phθ.θ,s)当0<h时≤\'\'哈。Let’h:=米纳/∈BR(Pθ.θ,s)’ha。允许 > 给出0并应用Fudenberg、He和Imhof(2017)的定理2 当π(s |θ)为≥ π(s |θ)和π(s |θ)≥ (1)- γ) nC,考虑t的年龄t接收器≥ln(1-γ) m.自t·π(s |θ)起≥ C、 Fudenberg、He和Imhof(2017)的定理2暗示概率至少为1-  该接收者对发送P'hθ中SFALL的类型的信念。θ。

59
何人来此 在职认证  发表于 2022-5-31 03:45:32
通过构造'h,BR(P'hθ.θ,s)=BR(Pθ.θ,s),so 1-  年龄t的受试者有σ(y)(s)的历史∈ BR(Pθ.θ,s)。由于代理在两个周期之间以概率γ生存,因此接收器种群的质量为dLn(1-γ) mor older is(1- γ) ·P∞t=dn(1-γ) eγt=γdn(1-γ) e.这表明sr[π](BR(Pθ.θ,s)| s)≥ γn(1-γ) ·(1)- ) ≥ γdn(1-γ) e类- 根据需要。A、 4命题2的证明命题2:π*∈ ∏*(g,δ,γ)当且仅当Rg,δ,γ[π*] = π*和Rg,δ,γ[π*] = π*.证据If:假设π*是这样的,R[π*] = π*和R[π*] = π*. 考虑状态ψ*定义为ψ*θ: =ψπ*每个θ和ψ的θ*:= ψπ*. 然后,通过构造σθ(ψπ*θ) =π*θ和σ(ψπ*) = π*, 所以态ψ*产生π*. 验证ψ*是一个稳态,我们可以通过定义ψπ来展开*θ、 fθ(ψπ)*θ、 π*) = fθ限制→∞fTθ(¢ψθ,π*), π*,其中|ψθ是任意初始状态。因为fθ在ψπ处是连续的*θ在脚注20中定义,limT→∞fTθ(△ψθ,π)*) = ψπ*θ是fθ(·,π)的固定点*). 要看到这一点,写ψ(T)θ:=fTθ(|ψθ,π*) 对于每个T≥ 1和let > 0开始。fθ的连续性意味着ζ>0,因此d(fθ(ψπ*θ、 π*), fθ(ψ(T)θ,π*)) < /2 Whenverd(ψπ*θ、 ψ(T)θ)<ζ。所以选择一个足够大的T,使得d(ψπ*θ、 ψ(T)θ)<ζ和d(ψπ*θ、 ψ(T+1)θ)</2、Thend(fθ(ψπ*θ、 π*), ψπ*θ)≤ d(fθ(ψπ*θ、 π*), fθ(ψ(T)θ,π*)) + d(ψ(T+1)θ,ψπ*θ) </2+/在线附录中命题3证明的第1步暗示了这一点,它表明fθ在分配(1)的所有状态下都是连续的- γ) γt等于长度t历史的集合。自从 > 0是任意的,我们已经证明了fθ(ψπ*θ、 π*) = ψπ*θ和类似的参数表示f(ψπ*, π*) = ψπ*. 这告诉我们ψ*= ((ψπ)*θ) θ∈Θ,ψπ*) 是一种稳定状态。仅当:相反,假设π*∈ ∏*(g,δ,γ)。然后存在一个稳态ψ*∈ ψ*(g,δ,γ)使得π*= σ(ψ)*).

60
可人4 在职认证  发表于 2022-5-31 03:45:35
这意味着fθ(ψ*θ、 π*) = ψ*θ、 所以迭代显示ψπ*θ: =限制→∞fTθ(ψ*θ、 π*) = ψ*θ。自R[π]*](·|θ):=σθ(ψπ)*θ) ,上述表示R[π*](·|θ)=σθ(ψ*θ) =π*(·|θ)选择ψ*. 我们可以类似地显示R[π*] = π*.A、 5定理3的证明在本小节中,我们将使用以下版本的霍夫丁不等式。事实(霍夫丁不等式)假设X。。。,R上的独立随机变量≤ xi≤ BI,每个i的概率为1。写入Sn:=Pni=1Xi。然后,P[| Sn- E[序号]|≥ d]≤ 2经验值-2dPni=1(bi- ai)!。引理A.1。战略文件π*, 假设s*在路径和π上*(a)*|s*) = 1,其中a*是对s的最佳回应*给定π*. 然后存在N∈ 因此,对于任何正则先验和任何稳态策略序列π(k)∈ ∏*(g,δk,γk),其中γk→ 1,π(k)→ π*, 存在任务∈ N使得每当k≥ K、 我们有π(K)(a*|s*) ≥ 1.- (1)- γk)·N.证明。自a*是s之后的严格最佳响应*对于π*, 存在 > 0,以便*在s之后将继续是严格的最佳响应*对于任意π∈ ∏其中对于每个θ∈ Θ,|π(s*|θ)-π*(s)*|θ) |<3.自π(k)→ π*, 找到足够大的K,使K≥ K表示每个θ∈ Θ,π(k)(s)*|θ)- π*(s)*|θ)<.写入eobsn,θ,表示n个年龄段的接收器遇到θ类型的概率小于nλ(θ)次。我们将找到一些NOB<∞ 所以xθ∈Θ∞Xn=0eobsn,θ≤ Nobs。固定一些θ∈ Θ。写入Z(θ)t∈ {0,1}作为指示随机变量,用于指示接收者是否在其生命的t期内看到θ型,并将Sn:=Pnt=1Z(θ)t写入到n岁之前遇到的θ型总数。我们有E[Sn]=nλ(θ),因此我们可以使用Hoeffing不等式来限定Obsn,θ。eobsn,θ≤ P|序号- E[序号]|≥nλ(θ)≤ 2经验值-2·[nλ(θ)]n!。这表明eobsn,θ以与exp相同的速率趋于0(-n) ,所以∞Xn=0eobsn,θ≤∞Xn=02 exp-2·[nλ(θ)]n!=:Nobsθ<∞.所以我们设置Nobs:=Pθ∈ΘNobsθ。接下来,在观察到jnλ(θ)ki之后,写出ebias,kn,θ的概率。i、 d。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 14:07