楼主: 能者818
1278 66

[量化金融] 信号游戏中的学习和类型兼容性 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
39.5040
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24699 点
帖子
4115
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2024-12-24

楼主
能者818 在职认证  发表于 2022-5-31 03:42:26 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Learning and Type Compatibility in Signaling Games》
---
作者:
Drew Fudenberg, Kevin He
---
最新提交年份:
2018
---
英文摘要:
  Which equilibria will arise in signaling games depends on how the receiver interprets deviations from the path of play. We develop a micro-foundation for these off-path beliefs, and an associated equilibrium refinement, in a model where equilibrium arises through non-equilibrium learning by populations of patient and long-lived senders and receivers. In our model, young senders are uncertain about the prevailing distribution of play, so they rationally send out-of-equilibrium signals as experiments to learn about the behavior of the population of receivers. Differences in the payoff functions of the types of senders generate different incentives for these experiments. Using the Gittins index (Gittins, 1979), we characterize which sender types use each signal more often, leading to a constraint on the receiver\'s off-path beliefs based on \"type compatibility\" and hence a learning-based equilibrium selection.
---
中文摘要:
信号博弈中会出现哪些均衡取决于接受者如何解释偏离游戏路径的情况。我们为这些偏离路径的信念建立了微观基础,并在一个模型中进行了相关的均衡优化,在该模型中,均衡是通过患者群体和长寿的发送者和接受者群体的非均衡学习产生的。在我们的模型中,年轻的发送者对游戏的普遍分布是不确定的,因此他们理性地发出不平衡的信号作为实验,以了解接受者群体的行为。不同类型的发送者的支付函数的差异为这些实验产生了不同的激励。使用Gittins指数(Gittins,1979),我们描述了哪些发送方类型更频繁地使用每个信号,从而导致基于“类型兼容性”的接收方偏离路径信念受到约束,从而形成基于学习的均衡选择。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--
一级分类:Economics        经济学
二级分类:Theoretical Economics        理论经济学
分类描述:Includes theoretical contributions to Contract Theory, Decision Theory, Game Theory, General Equilibrium, Growth, Learning and Evolution, Macroeconomics, Market and Mechanism Design, and Social Choice.
包括对契约理论、决策理论、博弈论、一般均衡、增长、学习与进化、宏观经济学、市场与机制设计、社会选择的理论贡献。
--

---
PDF下载:
--> Learning_and_Type_Compatibility_in_Signaling_Games.pdf (1.05 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:兼容性 Quantitative Contribution distribution equilibrium

沙发
mingdashike22 在职认证  发表于 2022-5-31 03:42:31
信号游戏中的学习和类型兼容性*Drew Fudenberg+Kevin He第一版:2016年10月12日本版:2018年6月30日摘要信号游戏中会出现哪些均衡取决于接受者如何解释偏离游戏路径的情况。我们在一个模型中为有效路径信念和相关的平衡关系建立了微观基础,在该模型中,平衡是通过患者和长寿老人群体的非平衡学习产生的。在我们的模型中,年轻的发送者对游戏的普遍分布不确定,因此他们理性地发出不平衡的信号作为实验,以了解接受者群体的行为。不同类型的发送者在支付函数上的差异为这些实验产生了不同的激励。使用Gittins指数(Gittins,1979),我们描述了哪些发送者类型更频繁地使用每个信号,从而限制了接收者基于“类型兼容性”的作用路径信念,从而形成了基于学习的均衡选择。*这篇材料之前是一篇题为“信号游戏中的类型兼容均衡”的大型论文的一部分我们感谢Dan Clark、Laura Doval、Glenn Ellison、Mira Frick、Ryota Iijima、Lorens Imhof、Yuichiro Kamada、Robert Kleinberg、David K.Levine、Kevin K.Li、Eric Maskin、Dilip Mookherjee、Harry Pei、Matthew Rabin、Bill Sandholm、Lones Smith、Joel Sobel、Philipp Strack、Bruno Strulovici、Tomasz Strzalecki、Jean Tirole、JuusoToikka、Alex Wolitzky、,四位匿名推荐人提供有用的评论和对话,国家科学基金会授予SES 1643517资金支持。+麻省理工学院经济系。电子邮件:drew。fudenberg@gmail.com哈佛大学经济系。电子邮件:hesichao@gmail.com1在一个信号游戏中,一个私下知情的发送者(例如一个学生)观察他们的类型(例如。

藤椅
能者818 在职认证  发表于 2022-5-31 03:42:34
能力),并选择接收者(如雇主)观察到的信号(如教育水平),然后接收者在不观察发送者类型的情况下选择动作。这些信号博弈可以有许多完美的贝叶斯均衡,这些均衡得到不同规范的支持,即在观测到均衡预测永远不会发生的干扰路径信号后,接收者将如何更新其对发送者类型的信念。这些有效路径信念不受贝叶斯规则的约束,解决方案概念,如完美贝叶斯均衡和顺序均衡,对它们没有任何限制。这导致了平衡的发展,如Cho和Kreps(1987)的直觉标准和Banks以及Sobel(1987)的神圣平衡,这些平衡通过限制作用路径信念来减少平衡集,使用关于参与者应该如何推断观察的平衡意义的论点,而平衡说不应该发生。本文使用一个学习模型为信号博弈中对作用路径信念的限制提供了微观基础,并由此导出了纳什均衡可以从学习中产生的限制。我们的学习模型有一个连续的代理,每个周期随机匹配,不断有不知道策略普遍分布的新代理流入,不断有相同规模的流出。

板凳
能者818 在职认证  发表于 2022-5-31 03:42:37
庞大的人口使得代理人有理由忽略重复的博弈效应,并确保聚合系统是确定性的,而人口的更替让我们可以在社会稳定状态存在的静态模型中分析学习,即使个体代理人学习。为了给代理足够的学习机会,我们假设他们的预期寿命很长,因此人口中的大多数代理都能活很长时间。为了确保代理人有足够强的实验动机,我们假设他们非常有耐心。这引导我们分析学习模型的“耐心稳定”稳态。我们的经纪人是Bayesian人,他们认为他们面临着对手比赛的时间不变分布。正如游戏文献和大多数实验室实验中的许多学习一样,这些代理只从个人观察中学习,而不是从报纸、父母或朋友等来源学习。因此,有耐心的年轻发送者会理性地尝试不同的信号,以观察接收者的反应。这意味着在给定的不平衡中概率为零的一些“反路径”信号将在近似于T的稳态中以较小但正的概率出现,因此我们可以使用Bayes规则推导出在这些罕见但正的概率观测之后对接收器典型后验信念的限制。此外,发送者类型的支付函数的不同导致他们以不同的方式进行实验。

报纸
能者818 在职认证  发表于 2022-5-31 03:42:41
因此,我们可以证明耐心稳定的稳态必须是纳什均衡的一个子集,在纳什均衡中,接收者的反应值得注意的是,斯彭斯(1973)也将均衡解释为学习过程的稳态(或“非传递控制”),尽管他没有明确说明他想到的是什么样的过程。正如我们在推论1中所解释的那样,我们的主要结果扩展到了一部分人可以访问其他人的游戏数据的环境。关于发送方类型的信念,这些信念尊重类型兼容性条件。这为消除信号游戏中的某些“非直观”均衡提供了基于学习的公正性。这些结果还表明,学习理论可以用来控制滚道游戏的速度,从而在其他游戏中产生均衡竞争。1.1玩具示例为了给我们的一般结果提供一些直觉,我们研究了嵌入在艺术简单学习模型中的特定阶段游戏,并解释了为什么最佳实验排除了一个非常不吸引人的均衡结果。考虑以下信号博弈:发送者要么是高类型θ,要么是低类型θ,两者的可能性相同。发送方在两个信号之间进行选择,s∈ {输入,输出}。如果发送方出局,游戏结束,双方获得0报酬。如果发送方参与,接收方则选择动作a∈ {向上,向下}。

地板
kedemingshi 在职认证  发表于 2022-5-31 03:42:44
信号输入后的支付取决于发送方的类型和接收方的行为,如下表所示。信号:动作中:向上动作:向下类型:θH2,2-2,0类型:θL1,-1.-3,0两种发送者类型都喜欢(In,Up)而不是(In,Down),而接收者如果认为发送者类型θH的可能性大于,则在信号输入后更喜欢向上而不是向下。这个游戏有一个完美的贝叶斯均衡(PBE),其中两种类型都选择向外,接收者在输入后都会向下玩,因为相信任何发送信息的人都有可能≤是θH。这种更新要求接收方将中的作用路径解释为发送方更有可能是θL的信号,即使从接收方的策略来看,θHgets 1比θLdoes更有用。因此,D1标准消除了“两个输出”。现在假设有三个真实存在的代理:θH、θL和R(对于接收方)。假设在每个周期t∈ {1,2,3,…},这三个代理玩一个同时移动的游戏,其中每一个sender typeθi选择一个信号sit,R选择一个动作atto来对付这两个发送者。(这是一种确定性模拟,接收器以1/2的概率随机匹配每种类型,而不知道发送者的类型。)在周期t结束时,R观察两种类型的信号选择,而θIO观察atif,并且仅当sit=In时。也就是说,每个代理只从他/她的个人经验中学习;通过选择“outside option”(外部选项),发送方无法了解接收方在该时间段内对信号的响应方式。代理认为,每个对手都致力于舞台游戏的某种混合策略,并在每个阶段都使用这种策略,而不管他们对过去比赛的观察结果如何:也就是说,所有代理的任何接受者在OFF-path信号中比赛,使θLto偏离弱最优到In,也会使θHto偏离严格最优。

7
能者818 在职认证  发表于 2022-5-31 03:42:47
因此,Cho和Kreps(1987)的D1标准要求接收机在θ=θLafter In上输出0概率。然而,PBE通过了他们的直觉标准。按照Fudenberg和Kreps(1993)的观点,他们在战略上目光短浅,不试图影响他们在未来几轮中将面临的战略分布。在t=1开始时,每种类型的θiis都有一个Beta(cU,cD)先验值,即R对In的响应概率为Up,cD>cU>0,因此它们将更高的概率分配给Down而不是Up。R从两个独立的先验Beta(cHI,cHO)和Beta(cLI,cLO)开始,关于每个周期θHandθLchooseIn的概率,其中我们只假设cHI,cHO,cLI,cLO>0。独立性假设意味着R不会从另一种类型的游戏中了解一种类型的行为。代理人未来期间的折扣付款利率为0≤ δ<1,并在每个时期选择一个信号或行动,以最大化预期的贴现收益。由于预期效用最大化代理从不严格喜欢随机化,因此每个代理都有一个确定性的最优策略,因此每个贴现因子δ都会导致确定性的有限游戏历史(sHt、sLt、at)∞t=1=:Y(δ)。当δ=0时,代理在每个周期都会进行近视游戏,并且由于我们假设cD>cU,这两种类型都会在t=1时选择退出。因此,他们得不到关于R游戏的任何信息,也不会更新他们的信仰,并在未来的每个时期继续玩下去。因此,当代理非常不耐烦时,非直觉的“双管齐下”PBE是学习的结果。然而,我们可以证明,对于所有足够大的δ,在每个周期内,行为最终收敛到R播放和θ播放。我们从描述代理在每个时期的最优行为开始,简要介绍了这一论点。R无论玩什么游戏都会观察到相同的信息,所以他在任何δ下都会近视。

8
何人来此 在职认证  发表于 2022-5-31 03:42:50
设p(ht)是R的贝叶斯后验信念,关于给定历史ht的In发送方具有θH类型的概率。如果p(ht)>则at+1=上升,如果p(ht)<,则at+1=下降。现在我们转向θi,它的问题涉及主动实验。形式上,θ面临的动态优化问题是一个单臂伯努利强盗。选择静坐=退出相当于选择安全的外部选项,而选择静坐=进入相当于拉高风险的ARM并获得回报,这取决于拉高是成功(at=向上)还是失败(at=向下)。θIIn的最佳策略包括Gittins指数(稍后在等式(2)中定义)。θi型存在于In具有正Gittins指数的那些历史中。一旦某一类型的人选择在某个时期进行表演,她将不会收到进一步的信息,并将继续在随后的所有时期进行表演。用Y(δ)表示θi firts从in切换到Out的周期为T(i,δ)∈ N∪ {∞}, 式中,T(i,δ)=∞ 意味着θi永远存在。关于学习可以消除外集中的论点,可以从三个观察中得出:观察1。高型切换到Out的时间晚于低型,即T(H,δ)≥T(L,δ)。为了了解原因,假设T(H,δ)<T(L,δ)是矛盾的。然后,在T=T(H,δ)期间,两个θ手θl都参与了直到现在的比赛,并且看到了相同的历史,因此他们对R的比赛有着相同的信念。然而,θHchooses Out在这段历史中,而θLchooses In,这意味着θhh是In的负Gittins指数,而θlha是正的Gittins指数。这是不可能的,在实践中,所需的耐心水平并不是不合理的高。

9
kedemingshi 在职认证  发表于 2022-5-31 03:42:53
例如,当cD=1.1 cU=1,cHI=cLO=1,cho=cLI=3时,δ=0产生病理性PBE作为长期结果,但当δ≥ 0.92长期运行结果包括sHt=In和at=Up。由于θH的In的payoff总是比θL的高1,所以当两种类型对R的发挥有相同的信念时,θH的In指数也总是比θL的高1。观察2。当高型患者变得有耐心时,她在任意时间进行实验,即limδ→1T(H,δ)=∞. 这是因为对于θHabout R的混合策略的任何固定的完全支持先验信念,在一段时间内,In的Gittins指数保持在2的“成功回报”附近,增长到δ→ 1,即使在最坏的情况下,R在每个时期都会下降。观察3。如果高类型比低类型发挥作用的次数多,频率也高,那么最终R会认为发送端有大于θH的可能性,也就是说,存在∈ 因此p(hT)>对于任何历史,其中(i)θh至少显示N次,且(ii)θl显示不超过θHdid。这源于这样一个事实,即R\'sbelief关于θi在niIinstances of In和nioiinstances of Out之后的发挥是Beta(ciI+niI,ciO+niO)。从观察结果2可以看出,当δ非常大时,T(H,δ)大于观察结果3的'N。对于任何一个t,直到t时期的历史≥因此,N将包含至少N个θh播放周期(即游戏的前N个周期),根据观察,1θl将在这段历史中播放不超过θHdid。通过观察3,p(ht)>fort≥\'\'N,表示at=向上表示t≥\'\'N.因为所有t的sHt=In≤N和观察到向上增加了In的Gittins索引,高类型必须始终在中发挥作用。

10
何人来此 在职认证  发表于 2022-5-31 03:42:56
这意味着限制→∞sHt=英寸和极限→∞当δ<1时,at=上升。在这个简单的学习模型中,经纪人很有耐心,会多次面对相同的对手,但不会试图影响他们未来的比赛。此外,经纪人认为对手的比赛是静态的,但随着时间的推移,情况会发生显著变化。最后,分析大大简化了,因为只有两个信号,其中一个给发送者一定的回报;这使得播放成为一种吸收状态,再加上Beta优先级的假设,让我们明确地计算出系统是如何演化的。本文的重点是嵌入在具有大量人口和匿名随机匹配的学习模型中的一般信号博弈,以消除重复博弈的影响。我们关注模型的稳态,其中静态假设得到满足。此外,我们放松了Beta先验假设,允许学习者拥有相当一般的非教条主义先验。然而,关于稳态模型的许多结果与上面的简单模型类似。直观地说,θHis与信号In的“兼容性”比θL的“兼容性”更高。定义2在一般的信号博弈中形式化了这种关系。观察结果1对应于引理2,引理2表明,每当一种类型比另一种类型更兼容信号时,兼容程度越高的类型发送信号的频率越高。观察结果2对应于引理4,引理4表示,一个有足够耐心且长寿的发送者类型将对所有有可能严格改善该类型平衡回报的信号进行多次实验。观察结果3对应于引理3,它表明接收者最终可以了解与每个信号相关的兼容性关系,前提是发送者的游戏尊重这种关系,并对信号进行更兼容的类型实验。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-3 21:54