|
有两个代理A、B和数据矩阵(9)U=(uA,uB)(uA,uB)(uA,uB)(uA,uB)=(7, 7) (1, 9)(9, 1) (3, 3).A和B按照以下规则进行游戏:(1)A选择U的第i行和第j列。(2)选择(i,j)意味着A被“惩罚”的值为uaij,B被“惩罚”的值为uBij。这个双人游戏有一个初始标准σ和4个其他状态(1,1),(1,2),(2,1),(2,2),对应于美国的四个参赛位置。代理商必须决定策略i,j∈ {1, 2}. 他们的j点决策(i,j)将把游戏从σ移动到最终状态σ=(i,j)。游戏在t=1时结束。那么,玩家A的效用就是价值uAij。B具有实用价值uBij。这种博弈通常被理解为一种成本博弈,即a和B的目标是最小化它们的效用。A和B应该最佳地做什么?即使玩家不是真正的“人”21。现实世界的数学模型备注1。9(囚犯的困境)。(9)yi eldsa版本中的效用矩阵U描述了所谓的囚徒困境,这是两名囚徒A和B的故事,他们可以单独“坦白”或“不坦白”他们共同被控的罪行。取决于他们的工作决定,他们可能会面临美国特有的监禁。他们的“困境”是:o无论他们做什么,至少有一个人最终会觉得做出了错误的决定。第22部分人物游戏2组合游戏从两个交替玩家的角度来看一般游戏。这方面揭示了游戏的递归特性。有限博弈是组合的。在正常的获胜规则下,组合博弈看起来就像广义数。例如,游戏代数允许人们明确计算nim游戏的获胜策略。1.
|