|
回想一下定义u=u(δ)1 +√1.-δ.我们还介绍了CDF(l和h分别表示“低”和“高”,以及ξ 最大{x,y})Gξl(w)=uwξ√1.-δon“0,ξu#,(A1)和gξh(w)=(1 -(a)(1-ξδ)uw(1-ξ)√1.-δ如果0≤ w<(1-ξ)(1-ξδ)u1 -a、 如果(1-ξ)(1-ξδ)u≤ w<11,如果w≥1,(A2)式中=a(ξ) 2.-ξ-δ1 -δ(1 -ξ)ξ.让玩家2使用以下马尔可夫策略。每个周期选择分布G(尽管从今以后我们抑制下标),定义如下。当x≤ y、 G=旋转≤u和G=Gyhif y>u。当y<x时,G=xyGxl+1-xyif x≤ u和G=xyGxh+1-xyif x>u。有鉴于此,玩家1面临一个马尔可夫决策问题。她的报酬(递归):V(x,y)=supF∈Fx(ZG(w)dF(w)+δZZV(w,z)g(z)dzdF(w))。让我们猜测以下策略是最佳策略:如果x≥ y、 游戏者1选择{x}上支持的退化分布;如果x<y,她选择支持{0,y}的二元分布。一个直接替换和一些代数产生p层1 A连续payoff of 1-δ1.-y2x对于实现x≥ y和1-δx2yf对于实现y>x。根据一次偏差原则,玩家1解决了ssupf∈Fx(ZΦ(w)dF(x)),其中Φ(w) G(w)+δ1-δZw1.-z2w型g(z)dz+Zww2zg(z)dz。用in代替G,我们得到了当u≥ x个≥ y、 Φ(w)=1.-δh1+yw-2x2xi,如果0≤ w<xu1-δh1-y2x1.-√1.-δi、 ifxu≤ w≤ 1,当u≥ y≥ x、 Φ(w)=1.-δhw2yi,如果0≤ w<yu1-δh2ui,ifyu≤ w≤ 1,当x≥ 最大值u,y,Φ(w)=1.-δh1+yw-2x2xi,如果0≤ w<(1-x) (1)-xδ)u1-δ1+y(1+√1.-δ)(1-x) 1个-δx-2倍!2倍, 如果(1-x) (1)-xδ)u≤ w<11-δhyx1.-a(x)-δx-a(x)+ 1.-yxi,如果1≤ w、 当y≥ 最大值u,x,Φ(w)=1.-δhw2yi,如果0≤ w<(1-y) (1)-yδ)u1-δh(1-y) 2年(1- yδ)ui,如果(1-y) (1)-yδ)u≤ w<11-δh1-a(y)-δy-a(y)i,如果1≤ w、 显然,我们的特定策略确实是最优的。
|