摘自《完整揭示纳什均衡概念的内涵及解决囚徒的困境》一文:
第 2 种证法。
我们先来分析,在假设 B 选择认罪的情况下,关于 A 的推理:
从表面看,似乎有 4 种策略组合:(A 认罪,B 认罪);(A 认罪,B 不认罪);(A 不认罪,B 认罪);(A 不认罪,B 不认罪)。如果它们都具有存在性,那么,它们就都会具有相容性;否则,如果某个方案会导 致矛盾,则按照上文希尔伯特的话,这个方案在理论上就不存在。
①假设 B 选择认罪,这意味着 B 认为这样做会对自己有利(回报(payoff)高于对方)或起码与对方回 报均衡。
②能与 B 认罪回报均衡的只能是 A 认罪,所以, B 认为选择认罪对自己有利的理由就只能是假设 A 选择不认罪。
③A 选择不认罪,这意味着 A 认为这样做会对自己有利或起码与对方回报均衡。
④能与 A 不认罪回报均衡的只能是 B 不认罪,所以,A 认为选择不认罪对自己有利的理由就只能 是假设 B 选择认罪。
⑤上面这个结论显然是荒谬的,这表明,在假设 B 选择认罪的条件下,策略组合(A 不认罪,B 认 罪)会导致逻辑矛盾,所以,该策略组合在理论上不存在。
再看在假设 B 选择不认罪的情况下的 A 的推理:
①假设 B 选择不认罪,这意味着 B 认为这样做会对自己有利或起码与对方回报均衡。
②能与 B 不认罪回报均衡的只能是 A 不认罪,所以,B 认为选择不认罪对自己有利的理由只能是 假设 A 选择认罪。
③上面这个结论显然是荒谬的,这表明,在假设 B 选择不认罪的条件下,策略组合(A 认罪,B 不 认罪)会导致逻辑矛盾,所以,该策略组合在理论上不存在。
综上分析,在(A 认罪,B 认罪)、(A 认罪,B 不认罪)、(A 不认罪,B 认罪)、(A 不认罪,B 不认罪) 4 种情况中,只有(A 认罪,B 认罪)和(A 不认罪,B 不认罪)是有意义的(有效的)策略组合;但两相比较, 显然后者为优——这就是对最优方案的证明。
第 3 种证法。
①假设对方认罪:如果我认罪,对方不会反对;如果我不认罪,对方求之不得。这就是说,在假设 对方认罪的条件下,不管我选择怎样的策略,对方都不会吃亏,这就是对方选择认罪策略的初衷(注: 对方的这个看似万全的策略并不高明,因为如果人人都这么想,就得不到最好的结果,这样说来,两个 囚徒都不算理性人)。对方的这种出于保守心态的初衷,决定了推理前提的稳定性(注:指的是,就选择此策略的目的而言,理由是充分的,因而,此策略一经选定,无需改变),从而,策略组合(我认罪, 对方认罪)与(我不认罪,对方认罪)就是可比较的,结论是,我应该也选择认罪。上述分析说明,策 略组合(我不认罪,对方认罪)在理论上是不存在的(需要说明的是,这个结论是通过比较法得来的)。
②假设对方不认罪:如果我也不认罪,对方不会反对;如果我认罪,就会发生对对方不利的结果。 由于双方是同时做决策的,所以,从纯思辨的角度讲,对方有理由改变策略,照此说来,假设前提似乎并不具有稳定性。于是,基于推理前提的可变性,策略组合(我认罪,对方不认罪)与(我不认罪,对方不认罪)就是不可比较的,所以,在假设对方不认罪的条件下,“我应该认罪”就不具有逻辑必然性, 换一种说法,策略组合(我认罪,对方不认罪)在理论上是不存在的。同样值得说明的是,这个结论是 基于无法应用比较法得来的。
基于双方被假设都是理性人:我想,如果我选择认罪,对方就会改变策略,到头来,双方都获刑期 10 年;如果我也选择不认罪,双方均获刑期 1 年。看来,我的合乎理性的做法应该是也选择不认罪。其实,对方知道我会这么想,也相信我会这么做,因为这是基于遵从相容性、遵从逻辑必然性所得到的信念,这就是对方选择不认罪这一策略的初衷。基于这样的分析,在假设对方不认罪的情况下,我应该也选择不认罪。依据上述纯思辨思维的分析,说实在的,我们假设的对方所选择的不认罪策略,其实并非真正不具有稳定性,相反,它所具有的才真正称得上是理性意义的稳定性;至于前面我们说它似乎并不具有稳定性,那只是仅仅针对对方为了“应对”我的非理性做法(选择认罪)而言的。需要说明的是, 虽然我们假设的对方所选择的认罪策略具有稳定性,但由于这个策略选择目的的保守性(注:只是求得 不吃亏,而不是把收益最大化作为追求目标,这显然是与理性人的特质不相符的),这个稳定性就不具有终极的意义,即所选策略不构成囚徒困境博弈最优解的组成部分。
综上所述,对方认罪我认罪,对方不认罪我亦不认罪,两相比较,我们终于可以以理性的名义宣布:两个囚徒都应该选择不认罪。以上,就是对最优方案的证明。


雷达卡

京公网安备 11010802022788号







