纳什均衡与帕累托最优是冲突的吗?
杨六省
对于囚徒困境,关于“在非零和博弈中纳什均衡概念与帕累托最优概念是冲突的”说法,笔者在“杨六省. 完整揭示纳什均衡概念的内涵及解决囚徒的困境[J]. 应用数学进展, 2018, 7(10): 1317-1324. http://www.hanspub.org/journal/AAM/ ”中一笔带过,这里细说一下。
由于人们的错误推理,得出了“认罪是每个囚徒的占优策略”的结论,从而,占优策略均衡(认罪,认罪),就应该是帕累托最优。
(认罪,认罪)是纳什均衡,这个结论没有错。但鉴于纳什均衡旧定义的内涵缺乏完整性,于是人们错误的认为,(认罪,认罪)是唯一的纳什均衡。根据上一段落的结论,这个唯一的纳什均衡就应该是帕累托最优,但明明不是——因为(认罪,认罪)这个策略组合还可以进行帕累托优化(注:帕累托优化(Pareto Improvement)的定义是:在没有使任何人境况变坏的前提下,使得至少一个人变得更好,是为帕累托优化,否则,就是帕累托最优状态),即两人都改变策略,都改为选择不认罪,就会使得双方都会有更好的收益。上述这个推理结论(指纳什均衡(认罪,认罪)应是帕累托最优)与客观存在(指策略组合(认罪,认罪)还可以进行帕累托优化)之间的矛盾,就是所谓的纳什均衡概念与帕累托最优概念的冲突。
综上所述,以往人们犯错的根源在于:①无效的推理得出了“认罪是每个囚徒的占优策略(最优策略)”这个错误的结论。②应用了纳什均衡概念的有缺陷的定义(指内涵是有缺失的)。只有消除了这两点,所谓“冲突”之说,自然就不复存在了:
①人们能够认识到,两个囚徒都应该选择“不认罪”策略(注:但不能说,“不认罪”策略是“占优策略”,因为“占优策略”这个概念含有对任何情况而言之意),因此,(不认罪,不认罪)应该是帕累托最优。根据纳什均衡新定义,(不认罪,不认罪)是纳什均衡,因此,就可以说,纳什均衡(不认罪,不认罪)是帕累托最优。
②(认罪,认罪)虽具有稳定性,但那是“纳什均衡”概念意义下的稳定性,而不是“帕累托最优”概念意义下的稳定性。前者是一般性概念,后者是特殊性概念。根据逻辑基本原理,特殊的是一般的(山羊是羊,白马是马),所以,“帕累托最优”概念意义下的稳定性(指具有终极意义的,即不可再优化的)就包含在“纳什均衡”概念意义下的稳定性之中,因此,就可以说,帕累托最优必是纳什均衡。
简言之,我们终于弄明白了,在囚徒困境博弈中,存在着一个特殊的纳什均衡(指(不认罪,不认罪))是帕累托最优,反过来说,帕累托最优必是某个纳什均衡。这个结论表明,纳什均衡概念与帕累托最优概念,并非是不相容的。
说明:诸位同好,欢迎您对我的关于囚徒困境的帖子给予批评和质疑。有什么不同意见和疑问尽管提出来,我们共同讨论,目的是把问题弄清。我既欢迎在论坛上讨论,也欢迎私下进行交流,我的邮箱是:yangls728@163.com