PS:本文是娱乐向……认真你就输了
纳什均衡,Nash equilibrium ,又称为非合作博弈均衡,是博弈论的一个重要术语,以美国数学家和统计学家纳什命名。
假设有n个局中人参与博弈,给定其他人策略的条件下,每个局中人选择自己的最优策略(个人最优策略可能依赖于也可能不依赖于他人的战略),从而使自己利益最大化。所有局中人策略构成一个策略组合(Strategy Profile)。纳什均衡指的是这样一种战略组合,这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下,没有人有足够理由打破这种均衡。纳什均衡,从实质上说,是一种非合作博弈状态。
纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。纳什均衡也不意味着博弈双方达到了一个整体的最优状态,以下的囚徒困境就是一个例子。
假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。
关于案例,显然最好的策略是双方都抵赖,结果是大家都只被判1年。但是由于两人处于隔离的情况,首先应该是从心理学的角度来看,当事双方都会怀疑对方会出卖自己以求自保、其次才是亚当斯密的理论,假设每个人都是“理性经纪人”,都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程:假如他坦白,我抵赖,得坐10年监狱,坦白最多才8年;他要是抵赖,我就可以被释放,而他会坐10年牢。综合以上几种情况考虑,不管他坦白与否,对我而言都是坦白了划算。两个人都会动这样的脑筋,最终,两个人都选择了坦白,结果都被判8年刑期。
基于经济学中Rational agent的前提假设,两个囚犯符合自己利益的选择是坦白招供,原本对双方都有利的策略不招供从而均被释放就不会出现。这样两人都选择坦白的策略以及因此被判8年的结局,纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战:按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。
而在学习生活中,也会出现一个类似的博弈过程,描述如下:
我们知道,学霸的危害更甚于黄赌毒,如果班里每个人都不学习的话,假设最高分只有50分的话,老师就只能将50分用各种方法提升至80分或更高以达到教学要求,而40分的人也可以因此而及格,这是最好的情况——大家都不用花费精力也可以得到不错的成绩,但是这时候班里就会出现一些学霸,企图通过成为学霸,自身达到80分或更高,这样的话就会比其他同学高出很多分,老师就不会将原本的80分进行提升,而这时在以上情况采取同样不学习的决策的考了40分的人也就只能得到40分而不及格了。这里有一个假设,即所有老师遵循同一个教学要求,学校中对老师一般都有一个教学要求,即考试成绩按照一定分数进行正态分布,即不管同学考试的分数是多少,老师最后的成绩一般都是按照这个正态分布分布的,假设这个正态分布的中间点是75分,那么如果所有同学平均分是50分,老师也会用一些提分方法将平均分数变成70分,以保证这个结果和他的教学要求没有太大偏离,而如果所有同学平均分是90分,那么老师会严格改卷让平均分数变成80分,以保证在教学要求变化范围内。
同学们显然知道会有学霸的出现,于是涌现出更多的学霸,最后大家都考90分的时候老师为了满足教学要求,将90分严格扣分至80分也是有可能的,这显然是又花费了精力又没有获得好成绩。在同一个班里,是否要成为学霸,就是我们要考虑的一个问题,同样的情况下,如果都不学习,大家既可以省下精力又可以获得好成绩,但是现实中更多的情况是出现了很多学霸导致这个均衡最后落在(左上角,左上角)的位置,花费了很多精力也是获得和前面那种情况相似的成绩。我们暂且称之为“学霸博弈”,通过学霸博弈我们同样可以从“纳什均衡”中引出“看不见的手”原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。