Ephent:新囚犯问题 (案例讨论)
原题:
5个囚犯,分别按1-5号在装有100颗绿豆的麻袋抓绿豆,规定每人至少抓一颗,而抓得最多和最少的人将被处死,而且,他们之间不能交流,但在抓的时候,可以摸出剩下的豆子数。问他们中谁的存活几率最大??
提示:
1,他们都是很聪明的人
2,他们的原则是先求保命,再去多杀人
3,100颗不必都分完
4,若有重复的情况,则也算最大或最小,一并处死
以下是个人分析:
假设1号和2号囚犯抓完绿豆,接下来轮到3号囚犯,3号囚犯摸了一下,剩下60颗(也可以假设剩下X 颗),这时3号囚犯知道了1号和2号囚犯两人共拿了40颗,聪明的3号囚犯可以立即选择拿20颗绿豆,这里可以这样分析:
1号和2号囚犯可能1号拿1颗绿豆,2号拿39颗,记为(1,39),也可能(2,38),(3,37)....(19,21),(20,20),(21,19)....(39,1);这里可以看到,只要时1号和2号囚犯不是(20,20)的情况,3号囚犯抓20颗绿豆的数目在1号和2号囚犯绿豆数目中间,这样囚犯3可以绝对保命;如果1号和2号囚犯是(20,200的情况,囚犯3也只是跟他们一样数目,不是最大也不是最小,所以囚犯3拿20颗绿豆是最安全的.(即囚犯3应拿1号和2号囚犯拿走绿豆数目的平均数).
同样的分析,囚犯4犯摸了一下,剩下40颗,囚犯4会拿20颗绿豆;这时剩下囚犯5,囚犯5拿20颗则全部处死刑,拿少于20颗则囚犯5因为最少颗被处死,囚犯1,2,3,4则因为一样最多全被处死刑.
这里分析了囚犯
现在分析囚犯2的策略:假设囚犯1拿了20颗(也可以假设Y颗),这时囚犯2不拿20颗,我们先取18颗来分析,接下来3,4,5号会取前者的平均数19,这样囚犯1和2两人将被处死刑.若囚犯2取22颗,囚犯3,4则会取平均数21颗,这时轮到囚犯5剩下16颗绿豆,囚犯2因为最多被处死刑,囚犯5因为最少被处死刑.所以囚犯2的最优策略是:(1)囚犯1拿多于20颗,囚犯2就拿20颗;囚犯1拿小于20颗,囚犯2就拿跟囚犯1一样多.
囚犯2,3,4,5的最优策略已经知道了,囚犯一是聪明人,他也当然知道其他是怎么想的,囚犯1没有最优策略,只有劣势策略:拿1颗绿豆或拿多于20颗的绿豆.
按这里的分析,5个囚犯的最终命运都是被处死刑,这个问题似乎是囚犯困境的另一种解释:即每人都选择对自己最有利的选择,结果对大家是最不利的!
以上为个人愚见,欢迎大家提出新的见解,或提出本观点的错误,谢谢!
月亮米拉疑问:为什么非要拿20个纳? 是不是认为取平均数?? 我个人认为在这个共同知识的假设上有问题,每个人的策略是什么?
Ephent回答月亮米拉疑问:这里取20个只是举例.也可以取其他数目,但可以知道的是取1个或20以上的数目是劣势策略.
取一个必死无疑就不用说了.取20个以上,比如21个,这样囚犯2完全可以取20个保证不死,因为接下来囚犯3,4,5一定有人少于20个;囚犯3知道囚犯1和2取了41个,一定会取20个,因为他也知道囚犯1或2一定有人多于20个,他取了20个后留下39个给囚犯4和5,他们一定有一个人少于20个,这样囚犯3也可以保证不死.同样在剩下的39个中囚犯4也会取20个,这样剩下19个囚犯5无论取多少个都要死.
所以囚犯1取20个以上的结果是:囚犯1和5分别被以最多和最少个处死!所以囚犯1是不会取20个以上的.而囚犯取20个或20个以下的数目的结果则是5个人都处死!
Luluxiong解答:我的理解与Ephent的一致,如下:
第一步:1号囚犯不会选择20以上的豆子,因为他知道如果自己选择了20以上的豆子,2号囚犯选择的豆子数不会大于1号囚犯,否则他有成为取豆子最多人的风险,所以2号囚犯选择的豆子数少于1号囚犯,比如说少1个,但根据题意,他绝对不会成为选择豆子最少的,因为1号和2号所取的豆子数已经超过了平均数.一句话,只要1号囚犯选择20以上的豆子,2号囚犯有100%的机率活命,1号才不会当这个冤大头.
第二步,1号如果选择平均数20个,2号选择19和21个都有可能成为最少或最多,根据假定,他们都抱着“我死也不会让他人活的心理”结果,2至4号囚犯都只会选择20个,第5号囚犯选择多少也就没有意义了,大家都得死。
第三步,因为大家都是极其聪明的人,也就是完全理性的经济人,所以1号不会选择20及20以上个豆子对所有囚犯都是一种共同知识,同理,如果1号选择20以下的任何一种,2的选择或者比1号多一个,或者少一个,如果2号的选择比1号少一个,3号的选择会与2号或1号相同,依次类推。总之,他们不会使选择的豆子差到两个及以上,这样会给他人求生的机会。
最后的结果,大家都得死,因为根据第二个假定,他们不会牺牲两个人,保全其它人。
Zqdong的解答:Ephent的结论是对的。这里我来尝试给出一个标准的逆向归纳解方案。令5个囚徒的选择的数量分别是x1,x2,x3,x4,x5,
第五个囚徒的策略选择
当(x1+x2+x3+x4)/4>100-(x1+x2+x3+x4),即x1+x2+x3+x4>80,囚徒五无论如何都达不到前四个囚徒的平均数,因此他只有尽可能多拿,则x5*=100-(x1+x2+x3+x4);反之,x1+x2+x3+x4≤80,则保持与前四个囚徒平均水平是占优策略,则x5*=(x1+x2+x3+x4)/4。
第四个囚徒的策略选择
他已观察到前三个囚徒的x1+x2+x3,加上其自己的选择x4,若有x1+x2+x3+x4≤80,则他知道囚徒将选择x5*=100-(x1+x2+x3+x4),因此他保持囚徒一、二、三、五的平均数是占优的策略,即
x4*=(x1+x2+x3+ x5*)/4
将x5*代入可计算出:x4*=(x1+x2+x3)/3 (不妨将x4*返验其条件,则此选择成为占有策略应是满足条件x1+x2+x3≤60)。
那么,当x1+x2+x3>60(这里是严格大于),则囚徒四可判断前三人中必有人超过20颗豆(则自己不超过20就不会成最高),而剩下的严格少于40可豆中,自己只需拿走20(则必使后继者有人少于20)就不会使自己成为最少者。故拿走20乃万全之策。
第三个囚徒的策略选择
囚徒3观察到x1+x2,又可前瞻x4*和x5*,他试图取其他四人的平均水平,即
x3=(x1+x2+x4*+x5*)/4
将x4*和x5*代入,有x3*=(x1+x2)/2 (当然,这里仍需要考虑约束条件x1+x2+x3+x4≤80和/或x1+x2+x3≤60,用x3*返验该约束条件,即x1+x2≤40)
反之,若x1+x2>40,则囚徒三可肯定囚徒一二中必有人超过20颗,剩下不足60颗豆中自己只需拿走20就可使后继者必有少于20者,因此20是最佳反应。
第二个囚徒的策略选择
囚徒2观察到x1,前瞻到x3*,x4*,x5*,他也可以通过拿其他四人平均数的方法来选择
x2=(x1+x3*+x4*+x5*)/4,将x3*和x4*和x5*迭次代入,可得x2*=x1 (返验约束条件有x1≤20)。
若x1>20,则囚徒2选择20是最佳策略(此可保证自己少于x1,但又不是最少,因为自己拿20颗以剩下不足60由三人拿,必有后继者少于20)。
第一个囚徒的策略选择
他其实应前瞻到:(1)自己选择20或以下的策略,则囚徒2则必跟随自己拿x2*=x1,以后的囚徒均按照前人的平均数取,均衡结果是x1*=x2*=x3*=x4*=x5*≤20。
(2)若自己选择超过20,则囚徒二选择20,囚徒3取20,囚徒4取20,囚徒五少于20;结果是自己和囚徒五被处死。


雷达卡
京公网安备 11010802022788号







