|
《地平线》的角色将在续集中重新探讨。每个玩家收到的价格通过反向需求函数(2.3)确定。si表示玩家i的策略:=qi,ai, 所有N玩家的总体战略文件:=s、 s。。。,序号. 从储备状态开始Xt,···,XNt=: Xt=x,每个玩家的目标函数Ji,i=1,N未来[t,t]定义为总贴现利润ji(s;t,x):=EZTt公司D-1.NNXj=1qjs合格中介机构- Cq(qis)- Ca(ais)e-r(s)-t) ds公司Xt=x, (2.4)当期望值超过随机点过程Nj时,驱动Xj,进而驱动qj。Wefocus关注可容许的策略集A,其中sit=(qit,ait)是马尔可夫反馈控制sqit=qi(t,Xt),ait=ai(t,Xt),使得Ji(s;t,x)<∞, x个∈ RN+,对于所有i=1,N、 从(2.4)中,我们可以看到,每个玩家的策略选择取决于所有其他玩家的策略,这导致了一个非合作博弈。我们的目的是研究由此产生的(马尔可夫反馈)纳什均衡。重要的是,控制的反馈结构加上(2.3)意味着球员i对XT的依赖可以通过他的个人储备XIT和所有球员储备的总分布来总结。后者通过η(N)(t,x)定义的上累积分布函数来表征:=NNXj=1{Xjt≥x} 。因此,马尔可夫反馈控制qi,ai可等效表示为QIT=qit、 Xit;η(N)(t,·), ait=ait、 Xit;η(N)(t,·), i=1,N、 定义2.1(纳什均衡)。N人博弈的纳什均衡是一种策略*=s1,*, . . . , 序号,*, 对于si,*:=气,*, 人工智能,*如thatJi(s*; t、 十)≥ 冀(s)*,-i、 si);t、 x个, 我∈ {1, 2, . . .
|