楼主: gtattender
7460 16

[合作博弈] 【转载】艾克斯罗德实验,用动态博弈研究人类社会的合作关系 [推广有奖]

  • 6关注
  • 13粉丝

已卖:287份资源

学科带头人

18%

还不是VIP/贵宾

-

威望
0
论坛币
3237 个
通用积分
404.2775
学术水平
33 点
热心指数
39 点
信用等级
23 点
经验
271 点
帖子
846
精华
1
在线时间
2926 小时
注册时间
2007-7-16
最后登录
2025-12-31

楼主
gtattender 在职认证  发表于 2012-9-13 09:35:31 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
一、 博弈中最优策略的产生

艾克斯罗德(Robert Axelrod)在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有权威干预个人决策。也就是说,个人可以完全按照自己利益最大化的企图进行决策。在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。

社会实践中有很多合作的问题。比如国家之间的关税报复,对他国产品提高关税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失了竞争力,损害了国际贸易的互补优势。在对策中,由于双方各自追求自己利益的最大化,导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。

A和B各表示一个人,他们的选择是完全无差异的。选择C代表合作,选择D代表不合作。如果AB都选择C合作,则两人各得3分;如果一方选C,一方选D,则选C的得零分,选D的得5分;如果AB都选D,双方各得1分。显然,对群体来说最好的结果是双方都选C,各得3分,共得6分。如果一方选C,一方选D,总体得5分。如果两人都选D,总体得2分。

对策学界用这个矩阵来描述个体理性与群体理性的冲突:每个人在追求个体利益最大化时,就使群体利益受损,这就是囚徒困境。在矩阵中,对于A来说,当对方选C,他选D得5分,选C只得3分;当对方选D,他选D得1分,选C得零分。因此,无论对方选C或D,对A来说,选D都得分最多。这是A单方面的优超策略。而当两个优超策略相遇,即A,B都选D时,结果是各得1分。这个结果在矩阵中并非最优。困境就在于,每个人采取各自的优超策略时,得出的解是稳定的,但不是帕累托最优的,这个结果体现了个体理性与群体理性的矛盾。在数学上,这个一次性决策的矩阵没有最优解。

如果博弈进行多次,只要对策者知道博弈次数,他们在最后一次肯定采取互相背叛的策略。既然如此,前面的每一次也就没有合作的必要,因此,在次数已知的多次博弈中,对策者没有一次会合作。

如果博弈在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作并达成默契时,对策者就能持续地各得3分,但如果持续地不合作的话,每个人就永远得1分。这样,合作的动机就显现出来。多次对局下,未来的收益应比现在的收益多一个折现率W,W越大,表示未来的收益越重要。在多人对策持续进行下去,且W比较大,即未来充分重要时,最优的策略是与别人采取的策略有关的。假设某人的策略是,第一次合作,以后只要对方不合作一次,他就永不合作。对这种对策者,当然合作下去是上策。假如有的人不管对方采取什么策略,他总是合作,那么总是对他采取不合作的策略得分最多。对于总是不合作的人,也只能采取不合作的策略。

艾克斯罗德做了一个实验,邀请多人来参加游戏,得分规则与前面的矩阵相同,什么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两博弈,以找出什么样的策略得分最高。

第一轮游戏有14个程序参加,再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作),运转了300次。结果得分最高的程序是加拿大学者罗伯布写的"一报还一报"(tit for tat)。这个程序的特点是,第一次对局采用合作的策略,以后每一步都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。艾克斯罗德还发现,得分排在前面的程序有三个特点:第一,从不首先背叛,即"善良的";第二,对于对方的背叛行为一定要报复,不能总是合作,即" 可激怒的";第三,不能人家一次背叛,你就没完没了的报复,以后人家只要改为合作,你也要合作,即"宽容性"。

为了进一步验证上述结论,艾氏决定邀请更多的人再做一次游戏,并把第一次的结果公开发表。第二次征集到了62个程序,加上他自己的随机程序,又进行了一次竞赛。结果,第一名的仍是"一报还一报"。艾氏总结这次游戏的结论是:第一,"一报还一报"仍是最优策略。第二,前面提到的三个特点仍然有效,因为63人中的前15名里,只有第8名的哈灵顿程序是"不善良的",后15名中,只有1个总是合作的是"善良的"。可激怒性和宽容性也得到了证明。此外,好的策略还必须具有的一个特点是"清晰性",能让对方在三、五步对局内辨识出来,太复杂的对策不见得好。"一报还一报"就有很好的清晰性,让对方很快发现规律,从而不得不采取合作的态度。

 二、 合作的进行过程及规律

"一报还一报"的策略在静态的群体中得到了很好的分数,那么,在一个动态的进化的群体中,这种合作者能否产生、发展、生存下去呢?群体是会向合作的方向进化,还是向不合作的方向进化?如果大家开始都不合作,能否在进化过程中产生合作?为了回答这些疑问,艾氏用生态学的原理来分析合作的进化过程。

假设对策者所组成的策略群体是一代一代进化下去的,进化的规则包括:一,试错。人们在对待周围环境时,起初不知道该怎么做,于是就试试这个,试试那个,哪个结果好就照哪个去做。第二,遗传。一个人如果合作性好,他的后代的合作基因就多。第三,学习。比赛过程就是对策者相互学习的过程,"一报还一报"的策略好,有的人就愿意学。按这样的思路,艾氏设计了一个实验,假设63个对策者中,谁在第一轮中的得分高,他在第二轮的群体中所占比例就越高,而且是他的得分的正函数。这样,群体的结构就会在进化过程中改变,由此可以看出群体是向什么方向进化的。

实验结果很有趣。"一报还一报"原来在群体中占1/63,经过1000代的进化,结构稳定下来时,它占了24%。另外,有一些程序在进化过程中消失了。其中有一个值得研究的程序,即原来前15名中唯一的那个"不善良的"哈灵顿程序,它的对策方案是,首先合作,当发现对方一直在合作,它就突然来个不合作,如果对方立刻报复它,它就恢复合作,如果对方仍然合作,它就继续背叛。这个程序一开始发展很快,但等到除了"一报还一报"之外的其它程序开始消失时,它就开始下降了。因此,以合作系数来测量,群体是越来越合作的。

进化实验揭示了一个哲理:一个策略的成功应该以对方的成功为基础。"一报还一报"在两个人对策时,得分不可能超过对方,最多打个平手,但它的总分最高。它赖以生存的基础是很牢固的,因为它让对方得到了高分。哈灵顿程序就不是这样,它得到高分时,对方必然得到低分。它的成功是建立在别人失败的基础上的,而失败者总是要被淘汰的,当失败者被淘汰之后,这个好占别人便宜的成功者也要被淘汰。

那么,在一个极端自私者所组成的不合作者的群体中,"一报还一报"能否生存呢?艾氏发现,在得分矩阵和未来的折现系数一定的情况下,可以算出,只要群体的 5%或更多成员是"一报还一报"的,这些合作者就能生存,而且,只要他们的得分超过群体的总平均分,这个合作的群体就会越来越大,最后蔓延到整个群体。反之,无论不合作者在一个合作者占多数的群体中有多大比例,不合作者都是不可能自下而上的。这就说明,社会向合作进化的棘轮是不可逆转的,群体的合作性越来越大。艾克斯罗德正是以这样一个鼓舞人心的结论,突破了"囚犯困境"的研究困境。

在研究中发现,合作的必要条件是:第一、关系要持续,一次性的或有限次的博弈中,对策者是没有合作动机的;第二、对对方的行为要做出回报,一个永远合作的对策者是不会有人跟他合作的。

那么,如何提高合作性呢?首先,要建立持久的关系,即使是爱情也需要建立婚姻契约以维持双方的合作。(火车站的小贩为什么要骗人?为什么工作中要形成小组制度?换防的时候一方总是要小小地进攻一下的,在中越前线就是这样)第二、要增强识别对方行动的能力,如果不清楚对方是合作还是不合作,就没法回报他了。第三、要维持声誉,说要报复就一定要做到,人家才知道你是不好欺负的,才不敢不与你合作。第四、能够分步完成的对局不要一次完成,以维持长久关系,比如,贸易、谈判都要分步进行,以促使对方采取合作态度。第五、不要嫉妒人家的成功,"一报还一报"正是这样的典范。第六、不要首先背叛,以免担上罪魁祸首的道德压力。第七、不仅对背叛要回报,对合作也要作出回报。第八、不要耍小聪明,占人家便宜。


艾克斯罗德在《合作的进化》一书结尾提出几个结论。第一、友谊不是合作的必要条件,即使是敌人,只要满足了关系持续,互相回报的条件,也有可能合作。比如,第一次世界大战期间,德英两军在战壕战中遇上了三个月的雨季,双方在这三个月中达成了默契,互相不攻击对方的粮车给养,到大反攻时再你死我活地打。这个例子说明,友谊不是合作的前提。第二、预见性也不是合作的前提,艾氏举出生物界低等动物、植物之间合作的例子来说明这一点。但是,当有预见性的人类了解了合作的规律之后,合作进化的过程就会加快。这时,预见性是有用的,学习也是有用的。

当游戏中考虑到随机干扰,即对策者由于误会而开始互相背叛的情形时,吴坚忠博士经研究发现,以修正的"一报还一报",即以一定的概率不报复对方的背叛,和 "悔过的一报还一报",即以一定的概率主动停止背叛。群体所有成员处理随机环境的能力越强,"悔过的一报还一报"效果越好,"宽大的一报还一报"效果越差。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:动态博弈 人类社会 Axelrod Robert 利益最大化 原始丛林 犯罪事实 经典故事 合作 社会实践

已有 1 人评分经验 收起 理由
bnuwwb + 100 鼓励积极发帖讨论

总评分: 经验 + 100   查看全部评分

沙发
gtattender 在职认证  发表于 2012-9-13 09:36:17
三、 艾克斯罗德的贡献与局限性

艾克斯罗德通过数学化和计算机化的方法研究如何突破囚徒困境,达成合作,将这项研究带到了一个全新境界,他在数学上的证明无疑是十分雄辩和令人信服的,而且,他在计算机模拟中得出的一些结论是非常惊人的发现,比如,总分最高的人在每次博弈中都没有拿到最高分。(刘邦和项羽的战争)

艾氏所发现的"一报还一报"策略,从社会学的角度可以看作是一种"互惠式利他",这种行为的动机是个人私利,但它的结果是双方获利,并通过互惠式利他有可能覆盖了范围最广的社会生活,人们通过送礼及回报,形成了一种社会生活的秩序,这种秩序即使在多年隔绝,语言不通的人群之间也是最易理解的东西。比如,哥伦布登上美洲大陆时,与印地安人最初的交往就开始于互赠礼物。有些看似纯粹的利他行为,比如无偿损赠,也通过某些间接方式,比如社会声誉的获得,得到了回报。研究这种行为,将对我们理解社会生活有很重要的意义。

囚徒困境扩展为多人博弈时,就体现了一个更广泛的问题──"社会悖论",或"资源悖论"。人类共有的资源是有限的,当每个人都试图从有限的资源中多拿一点儿时,就产生了局部利益与整体利益的冲突。人口问题、资源危机、交通阻塞,都可以在社会悖论中得以解释,在这些问题中,关键是通过研究,制定游戏规则来控制每个人的行为。

艾克斯罗德的一些结论在中国古典文化道德传统中可以很容易地找到对应,"投桃报李"、"人不犯我,我不犯人"都体现了"tit for tat"的思想。但这些东西并不是最优的,因为"一报还一报"在充满了随机性的现实社会生活里是有缺陷的。对此,孔子在几千年前就说出了"以德报德,以直报怨"这样精彩的修正策略,所谓"直",就是公正,以公正来回报对方的背叛,是一种修正了的"一报还一报",修正的是报复的程度,本来会让你损失5分,现在只让你损失3分,从而以一种公正审判来结束代代相续的报复,形成文明。

但是,艾氏对博弈者的一些假设和结论使其研究不可避免地与现实脱节。首先,《合作的进化》一书暗含着一个重要的假定,即,个体之间的博弈是完全无差异的。现实的博弈中,对策者之间绝对的平等是不可能达到的。一方面,对策者在实际的实力上有差异,双方互相背叛时,可能不是各得1分,而是强者得5分,弱者得0 分,这样,弱者的报复就毫无意义。另一方面,即使对局双方确实旗鼓相当,但某一方可能怀有赌徒心理,认定自己更强大,采取背叛的策略能占便宜。艾氏的得分矩阵忽视了这种情形,而这种赌徒心理恰恰在社会上大量引发了零和博弈。因此,程序还可以在此基础上进一步改进。

其次,艾氏认为合作不需预期和信任。这是他受到质疑颇多之处。对策者根据对方前面的战术来制定自己下面的战术,合作要求个体能够识别那些曾经相遇过的个体并且记得与其相互作用的历史,以便作出反应,这些都暗含着"预期"行为。在应付复杂的对策环境时,信任可能是对局双方达成合作的必不可少的环节。但是,预期与信任如何在计算机的程序中体现出来,仍是需要研究的。

最后,重复博弈在现实中是很难完全实现的。一次性博弈的大量存在,引发了很多不合作的行为,而且,对策的一方在遭到对方背叛之后,往往没有机会也没有还手之力去进行报复。比如,资本积累阶段的违约行为,国家之间的核威慑。在这些情况下,社会要使交易能够进行,并且防止不合作行为,必须通过法制手段,以法律的惩罚代替个人之间的"一报还一报",规范社会行为。这是艾克斯罗德的研究对制度学派的一个重要启发。

藤椅
davil2000 发表于 2012-9-13 09:51:30
无著作下载链接吗?
R是万能的,SAS是不可战胜的!

板凳
gtattender 在职认证  发表于 2012-9-13 10:00:33
davil2000 发表于 2012-9-13 09:51
无著作下载链接吗?
有,我读到的是别人的帖子里的书,可以下载。
合作的进化——罗伯特·艾克斯罗德

报纸
jasmines921 发表于 2012-9-13 11:36:58
看起来不错

地板
笙箫作别 在职认证  发表于 2012-9-15 21:06:24
好东东哈~
仁者,人也,亲亲为大。义者,宜也,尊贤为大。亲亲之杀,尊贤之等,礼所生也。

7
角尖 发表于 2012-9-18 21:37:36
社会并不像艾克斯罗德实验那么简单,而艾克斯罗德实验也有很多假设前提因素,但我从艾克斯罗德实验中相信:
(1)利他主义是可以从自私的利己主义中慢慢演化出来的。
(2)利他是原生的,任何一个团体都会慢慢演化出团结友爱来,即使没有促进团结的因素,只要允许其慢慢演化,再自由散漫的团体都会团结起来;
(3)假如一个团体缺乏团结友爱,必然是存在着阻碍团结的因素,而不是缺乏团结的因素;
(4)正义是维护团结的根本,只要是其是、非其非,团体自然就能凝聚起来,而正义实际上来自对自己利益维护上。

8
gtattender 在职认证  发表于 2012-9-19 09:47:32
角尖 发表于 2012-9-18 21:37
社会并不像艾克斯罗德实验那么简单,而艾克斯罗德实验也有很多假设前提因素,但我从艾克斯罗德实验中相信: ...
很同意你的见解,谢谢。tit for tat 是最稳定的积极的策略。

9
fathip 在职认证  发表于 2012-9-19 10:04:58
学习

10
gtattender 在职认证  发表于 2012-9-19 13:21:03
我个人觉得艾克斯罗德的进化结论忽略了一个重要的议题,就是群体的分化。
      他的结论是社会总体倾向于向合作度高发展,即样本空间中选择跟其他个体合作的人会越来越多。但是关于以下问题艾克斯罗德却没有给出明确结论,即:合作的最终结果,是稳定的单头团体,还是多个内部合作的集团相互竞争?

      其实,在艾克斯罗德实验中,最早选择tit fot tat的个体在多次实验后,累计的总分数最高,后学者虽然看到了tit fot tat是单次实验中对他最有利的选择(平均每次得3分),但最终的总分数依然难以超越比他更早先使用tit for tat建立合作关系的那些个体。而实验的成绩是以个体的总分的排名进行评判的。因此,在参与合作的个体达到一定数量的时候,后来者为了提高排名,就可能产生以下动机:即多数个后来者相互组队,对少数个先入者群体进行背叛,而在自己的队伍内部进行合作,企图超越排名最靠前那些个体。但也有很多人不愿卷入纷争,称为中立者,中立者之间是也彼此合作的。现在分析三者的博弈。

      假设背叛者联盟包含的个体数为m,排名最前者联盟包含的个体数为n,中立者联盟包含的个体数是l, l>m>n。两个战争群体持续相互背叛的收益是:背叛者群体从战争双方处每人每局得3m+1n,排名最前者联盟从战争他们双方处每人每局得到3n+1m,净差为2(m-n),即:只要背叛者群体人数超过排名最前者群体人数,背叛者群体的确会迅速赶超原本排名靠前的先入者群体。

      中立者群体的结果却很有意思,如果他们选择跟战争双方都合作,而且战争的双方也接受跟他们合作,他们每人每局会从战争双方处将得到3m+3n(超过了战争双方的收益),这意味着:背叛者想赶超排名最前者,却被中立者渔翁得利。在一个样本空间足够大的“社会”中,个体的总分可以认为是接近连续分布的。如果排名比较靠前的个体想超越最靠前的,结果会是紧随其后的中立者超越了战争的双方。战争的双方自然不会允许这样的事情发生。但是,如果战争双方对中立者采取背叛,以尽可能避免中立者者坐收渔利——即三方群体间彼此相互背叛,三方群体内保持合作——这种情况下,中立者联盟每人每局得到总收益是(3l+m+n), 排名靠前者联盟每人每局总收益是(3n+m+l),背叛者联盟每人每局的总收益是(3m+n+l)。结果还是成员最多的中立者联盟占了上风。因此,战争的双方都会拉拢中立者,希望中立者跟自己合作,对敌人背叛。而中立者不会答应,他们希望自己拖垮战争的双方,自己晋级。

      将这个结果推广至一般情况,即在tit for tat策略通行于全员的环境下,一旦出现群体分化,谁的成员数量多,谁就获胜——这是一个危险的结论,它意味着:排名靠后的个体,只要组建起人数足够多的联盟发动战争,就能推翻排名靠前的群体——只要人数占优势,且群体内部在一定阶段内保持忠诚,他们就能胜利,联盟中每个个体也都能因此提升自己的排名。

      因此,该实验的结果可能是:个体不合作——》个体合作成为群体——》群体分化,群体间竞争。那么,群体分化情况下,个体的平均收益又如何?群体如果不发生分化,大家都合作,每人每局都能从他人处都得到稳定的3分。缺点是:群体的排名无法更新。但是一旦有人为了自己的利益而组队发动革命,在战争持续期,全体个体的平均收益小于3(因为大家都有只得1分的情况)。但是,游戏规则是比排名,而不仅仅是分数。因此,在艾氏的模型里,只要有人能组织起强大的联盟,群体分化随时可能发生。战争联盟为了自己的收益最大化而发动战争,结果却降低了全体个体的平均最大收益。

     可见,艾克斯罗德实验并没有真正走出“囚徒困境”——个体(联盟)的最大收益跟群体(全社会)的最大收益依然不匹配。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-31 19:03