博弈论经典例子 - 博弈论 - 经管之家(原人大经济论坛)

0关注
0粉丝

初中生

90%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 606 个
通用积分: 0
学术水平: 0 点
热心指数: 3 点
信用等级: 0 点
经验: 280 点
帖子: 22
精华: 0
在线时间: 15 小时
注册时间: 2016-12-24
最后登录: 2019-6-23

楼主

巴黎豪庭业主 发表于 2017-5-21 00:01:57 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

博弈论（game theory）对人的基本假定是：人是理性的（rational，或者说自私的）,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。

这里有博弈论中几个例子非常好玩，可能一开始大家看理论分析，看不下去，后面有链接，相信会有人感兴趣并去研读一番。除了博弈论，那个《牛奶可乐经济学》，也可以给大家一个全新的视角去看待问题，同样很有趣，唉，生命有限，有趣的事太多，没法一一好好研究……我是走马观花型……希望大家喜欢……

博弈论分析

　　一、经济学中的“智猪博弈”（Pigs’payoffs）

　　这个例子讲的是：猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。
　　那么，两只猪各会采取什么策略？答案是：小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。
　　原因何在？因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。
　　“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是：每次落下的事物数量和踏板与投食口之间的距离。
　　如果改变一下核心指标，猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗？试试看。

　　改变方案一：减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩，大猪将会把食物吃完；大猪去踩，小猪将也会把食物吃完。谁去踩踏板，就意味着为对方贡献食物，所以谁也不会有踩踏板的动力了。
　　如果目的是想让猪们去多踩踏板，这个游戏规则的设计显然是失败的。

　　改变方案二：增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃，谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会，所以竞争意识却不会很强。
　　对于游戏规则的设计者来说，这个规则的成本相当高（每次提供双份的食物）；而且因为竞争不强烈，想让猪们去多踩踏板的效果并不好。

　　改变方案三：减量加移位方案。投食仅原来的一半分量，但同时将投食口移到踏板附近。结果呢，小猪和大猪都在拼命地抢着踩踏板。等待者不得食，而多劳者多得。每次的收获刚好消费完。
　　对于游戏设计者，这是一个最好的方案。成本不高，但收获最大。

　　原版的“智猪博弈”故事给了竞争中的弱者（小猪）以等待为最佳策略的启发。但是对于社会而言，因为小猪未能参与竞争，小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置，规则的设计者是不愿看见有人搭便车的，政府如此，公司的老板也是如此。而能否完全杜绝“搭便车”现象，就要看游戏规则的核心指标设置是否合适了。

　　比如，公司的激励制度设计，奖励力度太大，又是持股，又是期权，公司职员个个都成了百万富翁，成本高不说，员工的积极性并不一定很高。这相当于“智猪博弈”增量方案所描述的情形。但是如果奖励力度不大，而且见者有份（不劳动的“小猪”也有），一度十分努力的大猪也不会有动力了----就象“智猪博弈”减量方案一所描述的情形。最好的激励机制设计就象改变方案三----减量加移位的办法，奖励并非人人有份，而是直接针对个人（如业务按比例提成），既节约了成本（对公司而言），又消除了“搭便车”现象，能实现有效的激励。

许多人并未读过“智猪博弈”的故事，但是却在自觉地使用小猪的策略。股市上等待庄家抬轿的散户；等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资；公司里不创造效益但分享成果的人，等等。因此，对于制订各种经济管理的游戏规则的人，必须深谙“智猪博弈”指标改变的个中道理。

政治学例子：军备竞赛

　　在政治学中，两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）。两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。似乎自相矛盾的是，虽然增加军备会是两国的「理性」行为，但结果却显得「非理性」（例如会对经济造成都有损坏等）。这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。

经济学例子：关税战

　　两个国家，在关税上可以有以两个选择:
1.                         提高关税，以保护自己的商品。（背叛）
2.                         与对方达成关税协定，降低关税以利各自商品流通。（合作）
　　当一国因某些因素不遵守关税协定，而独自提高关税（背叛）时，另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）

商业例子：广告战

　　商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。
　　两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。
　　此二公司可以有二选择：
1.                         互相达成协议，减少广告的开支。（合作）
2.                         增加广告开支，设法提升广告的质量，压倒对方。（背叛）
　　若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。

　二、囚徒困境博弈
　　在博弈论中，含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”（prisoners’ dilemma）博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果一个犯罪嫌疑人坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白，则两人各被判刑8年；如果另一个犯罪嫌人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。下表给出了这个博弈的支付矩阵。

　　表囚徒困境博弈 [Prisoner's dilemma]

B　坦白

　 B　抵赖

A　　坦白

–8, –8

　0, –10

A　　抵赖

–10, 0　

–1, –1

　　我们来看看这个博弈可预测的均衡是什么。对A来说，尽管他不知道B作何选择，但他知道无论B选择什么，他选择“坦白”总是最优的。显然，根据对称性，B也会选择“坦白”，结果是两人都被判刑8年。但是，倘若他们都选择“抵赖”，每人只被判刑1年。在表2.2中的四种行动选择组合中，（抵赖、抵赖）是帕累托最优的，因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。不难看出，“坦白”是任一犯罪嫌疑人的占优战略，而（坦白，坦白）是一个占优战略均衡。

　　要了解纳什的贡献，首先要知道什么是非合作博弈问题。现在几乎所有的博弈论教科书上都会讲“囚犯的两难处境”的例子，每本书上的例子都大同小异。

　　博弈论毕竟是数学，更确切地说是运筹学的一个分支，谈经论道自然少不了数学语言，外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题，所以不能不食人间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗和决策性质的问题中借用的术语，听上去有点玄奥，实际上却具有重要现实意义。博弈论大师看经济社会问题犹如棋局，常常寓深刻道理于游戏之中。所以，多从我们的日常生活中的凡人小事入手，以我们身边的故事做例子，娓娓道来，并不乏味。

　　话说有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人，斯卡尔菲丝和那库尔斯，并从他们的住处搜出被害人家中丢失的财物。但是，他们矢口否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离，分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。

　　检察官说，“由于你们的偷盗罪已有确凿的证据，所以可以判你们一年刑期。但是，我可以和你做个交易。如果你单独坦白杀人的罪行，我只判你三个月的监禁，但你的同伙要被判十年刑。

如果你拒不坦白，而被同伙检举，那么你就将被判十年刑，他只判三个月的监禁。但是，如果你们两人都坦白交代，那么，你们都要被判5年刑。”斯卡尔菲丝和那库尔斯该怎么办呢？他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖，结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以，按照亚当·斯密的理论，每一个人都是从利己的目的出发，他们选择坦白交代是最佳策略。因为坦白交代可以期望得到很短的监禁———3个月，但前提是同伙抵赖，显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此，坦白还有更多的好处。如果对方坦白了而自己抵赖了，那自己就得坐10年牢。太不划算了！因此，在这种情况下还是应该选择坦白交代，即使两人同时坦白，至多也只判5年，总比被判 10年好吧。所以，两人合理的选择是坦白，原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会出现。

　　这样两人都选择坦白的策略以及因此被判5年的结局被称为“纳什均衡”，也叫非合作均衡。因为，每一方在选择策略时都没有“共谋”(串供)，他们只是选择对自己最有利的策略，而不考虑社会福利或任何其他对手的利益。也就是说，这种策略组合由所有局中人(也称当事人、参与者)的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突，各人追求利己行为而导致的最终结局是一个“纳什均衡”，也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己，这样他们必然要服长的刑期。只有当他们都首先替对方着想时，或者相互合谋(串供)时，才可以得到最短时间的监禁的结果。“纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。

　　不妨让我们重温一下这位经济学圣人在《国富论》中的名言：“通过追求(个人的)自身利益，他常常会比其实际上想做的那样更有效地促进社会利益。”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说，“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此，从“纳什均衡”中我们还可以悟出一条真理：合作是有利的“利己策略”。但它必须符合以下黄金律：按照你愿意别人对你的方式来对别人，但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次，“纳什均衡”是一种非合作博弈均衡，在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩的合作博弈理论的重大发展，甚至可以说是一场革命。

　　从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象。我们将例举出许多类似于“囚徒的两难处境” 这样的例子。如价格战博弈、军奋竞赛博弈、污染博弈等等。一般的博弈问题由三个要素所构成：即局中人(players)又称当事人、参与者、策略等等的集合，策略 (strategies)集合以及每一对局中人所做的选择和赢得(payoffs)集合。其中所谓赢得是指如果一个特定的策略关系被选择，每一局中人所得到的效用。所有的博弈问题都会遇到这三个要素。

由囚徒困境可以写出类似的员工困境：
一名经理，数名员工; 前提，经理比较苛刻;
如果所有员工都听从经理吩咐，则奖金等待遇一样，不过所有人都超负荷工作
如果某人不听从吩咐，其他人听从吩咐，则此人下岗。其他人继续工作
如果所有人都不听从经理吩咐，则经理下岗
但是，由于员工之间信息是不透明的，而且，都担心别人听话自己不听话而下岗，所以，大家只能继续繁重的工作。

　　四、污染博弈：
　　假如市场经济中存在着污染，但政府并没有管制的环境，企业为了追求利润的最大化，宁愿以牺牲环境为代价，也绝不会主动增加环保设备投资。按照看不见的手的原理，所有企业都会从利己的目的出发，采取不顾环境的策略，从而进入“纳什均衡”状态。如果一个企业从利他的目的出发，投资治理污染，而其他企业仍然不顾环境污染，那么这个企业的生产成本就会增加，价格就要提高，它的产品就没有竞争力，甚至企业还要破产。这是一个“看不见的手的有效的完全竞争机制”失败的例证。直到20世纪90年代中期，中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时，企业才会采取低污染的策略组合。企业在这种情况下，获得与高污染同样的利润，但环境将更好。

与囚徒困境相关的各事件

异想
　　威廉·庞德斯通（William Poundstone）在他的著作中，以一新西兰的例子来说明囚徒困境。在新西兰，报亭既无管理员也不上锁，买报纸的人自行放下钱后拿走报纸。当然某些人可能取走报纸却不付钱（背叛），但由于大家认识到如果每个人都偷窃报纸（共同背叛）会造成以后不方便的有害结果，这种情形很少发生。这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境。并没有任何人特别去注意报亭，人们守规则是为了避免共同背叛带来的恶果。这种避免囚徒困境的大家共同的推理或想法被称为“异想（magical thinking）”。

“认罪减刑”不可行
　　囚徒困境的结论是许多国家中认罪减刑（英文：plea bargain）被禁止的原因之一。囚徒困境带来的结论是：如果有二个罪犯，其中一人犯罪而另外一人是无辜的，犯罪者会为了减刑坦白一切甚至冤枉清白者（单独背叛）。最糟糕的情况是，如果他们二人都被判入狱，坦白的犯罪者刑期少，坚持无罪的冤枉者刑期反而更多。

公用品悲剧
　　现实的博弈参与者不只一方，会有多方参与的囚徒困境。加勒特·詹姆斯·哈丁（Garrett James Hardin）的公用品悲剧就是一例：“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”，例如渔业，公海中的鱼是属于公共的，而在本身不滥捕其他人也滥捕的思想下，渔民会没有节制的大捞特捞，结果海洋生态破坏，渔民的生计也受影响（共同背叛的结果）。但是，多方囚徒困境的提法有待商榷，因为其总是可以被分解为一组组经典的二方囚徒困境。就是说只有二方的囚徒困境，没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。

非零和博弈例子
　　用电影《美丽心灵》中的一个情节来继续解读非零和博弈：烈日炎炎的一个下午，约翰·纳什教授给二十几个学生上课，教室窗外的楼下有几个工人正施工，机器的响声成了刺耳的噪音，于是纳什走到窗前狠狠地把窗户关上。马上有同学提出意见：“教授，请别关窗子，实在太热了！”而纳什教授一脸严肃地回答说：“课堂的安静比你舒不舒服重要得多！”然后转过身一边嘴里叨叨着“给你们来上课，在我看来不但耽误了你们的时间，也耽误了我的宝贵时间……”，一边在黑板上写着数学公式。

　　正当教授一边自语一边在黑板上写公式之际，一位叫阿丽莎的漂亮女同学（这位女同学后来成了纳什的妻子）走到窗边打开了窗子，电影中纳什用责备的眼神看着阿丽莎：“小姐……”而阿丽莎对窗外的工人说道：“打扰一下，嗨！我们有点小小的问题，关上窗户，这里会很热；开着，却又太吵。我想能不能请你们先修别的地方，大约45分钟就好了。”正在干活的工人愉快地说：“没问题！”又回头对自己的伙伴们说：“伙计们，让我们先休息一下吧！”阿丽莎回过头来快活地看着纳什教授，纳什教授也微笑地看着阿丽莎，既像是讲课，又像是在评论她的做法似地对同学们说：“你们会发现在多变性的微积分中，往往一个难题会有多种解答。”

　　而阿丽莎对“开窗难题”的解答，使得原本的一个零和博弈变成了另外一种结果：同学们既不必忍受室内的高温，教授也可以在安静的环境中讲课，结果不再是0，而成了+2。由此我们可以看到，很多看似无法调和的矛盾，其实并不一定是你死我活的僵局，那些看似零和博弈或者是负和博弈的问题，也会因为参与者的巧妙设计而转为正和博弈。正如上文中纳什教授所说：“多变性的微积分中，往往一个难题会有多种解答。”这一点无论是在生活中还是工作上都给我们以有益的启示。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏25 回帖

关键词：博弈论经典经典例子博弈论 Game Theory Strategies 博弈论经典

[文献讨论] 博弈论经典例子 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[文献讨论] 博弈论经典例子 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群