广东省百歌颂中华2017:博弈论研究

来源:百度文库 编辑:偶看新闻 时间:2024/04/26 15:22:02
博弈论研究的是什么?
    
  1994年10月11日,瑞典皇家科学院宣布,由于纳什博士对非合作博弈理论中的均衡问题进行了开创性分析,与哈尔萨尼教授( P rofessor JohnC.Harsanyi)和泽尔滕教授( P rofessorDr. Reinhard Selten)分享了该年度的诺贝尔经济学奖,奖金93万美元。
    
  博弈论研究人们的策略互动行为。博弈论认为:一、人是理性的,即人人都会在约束条件下最大化自身的利益;二、人们在交往合作中有冲突,行为互相影响,而且信息不对称。博弈论研究人们的行为,在直接相互作用时的决策,以及决策的均衡问题。换句话说,博弈论研究如何使得人们在市场经济中,自愿做出大家都遵守和实施的有效制度安排,以增进社会的福利的机制。
    
  博弈论是深刻理解经济行为和社会问题的基础。现在人们说的博弈论,一般指非合作博弈论。它的特征是:人们行为相互作用时,当事人不能达成一个有约束力的协议。或者说,行为人之间的合约对于签约人没有实质性约束力。例如,现实中的非合作博弈问题的例子是,石油卡特尔欧佩克的产量协议,对于其成员国就没有约束力。你心里想什么我不知道,我也不想让你知道我心里想什么。因此,协议经常不能坚持到底,总有一国先行增产降价以谋求自己更高的利润。
    
  纳什在1950年和1951年发表了两篇关于非合作博弈的论文,《 n人博弈中的均衡点》和《非合作博弈》,定义了“纳什均衡”概念,与 T ucker于1950年定义的“囚徒困境”一起,奠定了当代非合作博弈论的基石。纳什获得诺贝尔经济学奖,就是基于这两篇论文。
    
  在纳什的基础上,后来的泽尔滕精炼了纳什均衡概念,定义了完全信息动态博弈的“子博弈完备纳什均衡”(1965),以及进一步刻画不完全信息动态博弈的“完备贝叶斯纳什均衡”(1975)。而哈尔萨尼则发展了刻画不完全信息静态博弈的“贝叶斯纳什均衡”(1967-1968)。总之,他俩进一步将纳什均衡动态化,加入了接近实际的不完全信息条件。他们的工作为后人继续发展博弈论,提供了基本思路和模型,因此他们也与纳什同时获得了诺贝尔经济学奖。
    
  较为正式地说,纳什均衡是一种策略组合,给定对手的策略,每个参与人选择自己的最优策略。也就是说,纳什均衡是一种僵局,其他参与人的策略一定,没有任何人有积极性偏离这种均衡的局面。经济学中的完全竞争均衡,就是纳什均衡,因为买卖双方都是按照既定的价格进行交易量的选择,结果导致了零利润。
    
  把上述思想应用于现实经济、政治等境况,可以得出许多有益的结果,加深我们对于人们的社会行为的认识。
    
  博弈论的经典案例:“囚徒困境”
    
      “囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。
    
      这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。
    
      那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。 A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。
    
      所以, A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么, A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。
    
      当然,在现实世界里,信任与合作很少达到如此两难的境地。谈判、人际关系、强制性的合同和其他许多因素左右了当事人的决定。但囚徒的两难境地确实抓住了不信任和需要相互防范背叛这种真实的一面。让我们看看冷战时期两个超级大国将自己锁定在一场40年的军备竞赛中,其结果对双方都毫无益处。还有各国的贸易保护主义的永恒倾向也很能说明问题。
    
      比如贸易自由与壁垒,这个问题对于刚刚加入 W TO的中国而言尤为重要。任何一个国家在国际贸易中都面临着保持贸易自由与实行贸易保护主义的两难选择。贸易自由与壁垒问题,也是一个“纳什均衡”,这个均衡是贸易双方采取不合作博弈的策略,结果使双方因贸易战受到损害。 X国试图对 Y国进行进口贸易限制,比如提高关税,则 Y国必然会进行反击,也提高关税,结果谁也没有捞到好处。反之,如 X和 Y能达成合作性均衡,即从互惠互利的原则出发,双方都减少关税限制,结果大家都从贸易自由中获得了最大利益,而且全球贸易的总收益也增加了。
    
      博弈论已成为整个社会科学的一个方法
    
      我们可以看出,在上述博弈论及其应用中,没有“美丽的心灵”式的先验的道德的余地。博弈论强调用互惠策略(一报还一报),促进行为人之间的合作,形成基于个体理性(利己动机)的集体理性结局(正的外部性或者利他行为),形成社会的道德共识。简单说就是:你对我好,我就对你好;你对我不好,我也对你不好。我对你好,是为了你能继续对我好。我对你不好,不是睚眦必报的互相损害,而是要将对方重新拉回合作的轨道。实现的机制是,通过对恶劣行为的惩罚,驱使行为人合作。因为从多次博弈和演进的角度看,合作比不合作的收益大于成本,不合作比合作的收益小于成本。这就是博弈论应用于经济制度设计的原理之一,也可以看做是可供选择的人类社会道德共识演进的机制。
    
      在分析改革过程中各阶层或者群体利益消长和继续改革的态度时,博弈论为我们提供了一个简洁深刻的工具。改革必须有人付出成本(包括风险),而改革结果的收益是大家共享。有人认识到这一点,就不愿努力改革,生怕别人搭便车。这样的人多了,就会出现人人希望改革,很少人投身改革的局面,都维持在旧体制下度日。如此,怕别人搭便车,结果人人没有车搭,大家都步行。这种思考方式,也可以用来分析公共物品的供给中的机会主义问题。
    
      我们还可以将这里的思想引申到商品(包括股票)定价过程和制度。市场的功能是缩小人与人之间的距离,使得个人很容易在议价过程中转向众多的潜在交易伙伴。价格的制定,以非人格定价为好。非人格定价,是指市场价格对任何人都一样。明码标价就是一种非人格定价。这表面看起来像是卖方定价,但是在法治较好的竞争性市场中,买者可以选择多个卖方,以用脚投票的方式间接定价。股票市场的合法投机套利活动,可能促进非人格定价的形成,减少因人而异的人格定价行为,从而使机会主义行为减少,降低内生交易成本。这符合我们大多数股民的共同利益,揭明了我们为什么要在股市交易中戒除腐败和违法活动的基本道理。
     博弈论在过去二三十年中,是经济学理论中发展得最为成功的一部分,博弈论已成为整个社会科学的一个方法。有人说,如果未来社会科学还有纯理论的话,那就是博弈论。
    
      博弈论提供了一种系统的方法,使人们在其命运取决于他人的行为时制定出相应的战
    
      略。特别是当许多相互依赖的因素共存,没有任何决策能独立于其它许多决策之外时,博弈论更是有用。
    
      当然,博弈论毕竟是数学,更确切地说是运筹学的一个分支,谈经论道自然少不了数学语言,外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题,所以不能不食人间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗和决策性质的问题中借用的术语,听上去有点玄奥,实际上却具有重要现实意义。博弈论大师看经济社会问题犹如棋局,常常寓深刻道理于游戏之中。所以,多从我们的日常生活中的凡人小事入手,以我们身边的故事做例子,娓娓道来,并不乏味。
    
    学习管理学或经济学的人一定都了解一些博弈论方面的知识。在博弈论中有一个经典案例——囚徒困境,非常耐人回味。
    
    ----“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。
    
    ----那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。
    
    ----当然,在现实世界里,信任与合作很少达到如此两难的境地。谈判、人际关系、强制性的合同和其他许多因素左右了当事人的决定。但囚徒的两难境地确实抓住了不信任和需要相互防范背叛这种真实的一面。让我们看看冷战时期两个超级大国将自己锁定在一场40年的军备竞赛中,其结果对双方都毫无益处。还有各国的贸易保护主义的永恒倾向。
    
    ----但是,无论在自然界还是在人类社会,“合作”都是一种随处可见的现象。那么,问题就出现了:到底是何种机制促使生物体或者人类进行相互合作呢?
    
    ----这个问题的答案大部分归功于美国密西根大学一位叫做罗伯特·爱克斯罗德的人。爱克斯罗德是一个政治科学家,对合作的问题久有研究兴趣。为了进行关于合作的研究,他组织了一场计算机竞赛。这个竞赛的思路非常简单:任何想参加这个计算机竞赛的人都扮演“囚徒困境”案例中一个囚犯的角色。他们把自己的策略编入计算机程序,然后他们的程序会被成双成对地融入不同的组合。分好组以后,参与者就开始玩“囚徒困境”的游戏。他们每个人都要在合作与背叛之间做出选择。
    
    ----但这里与“囚徒困境”案例中有个不同之处:他们不只玩一遍这个游戏,而是一遍一遍地玩上200次。这就是博弈论专家所谓的“重复的囚徒困境”,它更逼真地反映了具有经常而长期性的人际关系。而且,这种重复的游戏允许程序在做出合作或背叛的抉择时参考对手程序前几次的选择。如果两个程序只玩过一个回合,则背叛显然就是唯一理性的选择。但如果两个程序已经交手过多次,则双方就建立了各自的历史档案,用以记录与对手的交往情况。同时,它们各自也通过多次的交手树立了或好或差的声誉。虽然如此,对方的程序下一步将会如何举动却仍然极难确定。实际上,这也是该竞赛的组织者爱克斯罗德希望从这个竞赛中了解的事情之一。一个程序总是不管对手作何种举动都采取合作的态度吗?或者,它能总是采取背叛行动吗?它是否应该对对手的举动回之以更为复杂的举措?如果是,那会是怎么样的举措呢?
    
    ----事实上,竞赛的第一个回合交上来的14个程序中包含了各种复杂的策略。但使爱克斯罗德和其他人深为吃惊的是,竞赛的桂冠属于其中最简单的策略:一报还一报(TIT FOR TAT)。这是多伦多大学心理学家阿纳托·拉帕波特提交上来的策略。一报还一报的策略是这样的:它总是以合作开局,但从此以后就采取以其人之道还治其人之身的策略。也就是说,一报还一报的策略实行了胡萝卜加大棒的原则。它永远不先背叛对方,从这个意义上来说它是“善意的”。它会在下一轮中对对手的前一次合作给予回报(哪怕以前这个对手曾经背叛过它),从这个意义上来说它是“宽容的”。但它会采取背叛的行动来惩罚对手前一次的背叛,从这个意义上来说它又是“强硬的”。而且,它的策略极为简单,对手程序一望便知其用意何在,从这个意义来说它又是“简单明了的”。
    
    ----当然,因为只有为数不多程序参与了竞赛,一报还一报策略的胜利也许只是一种侥幸。但是,在上交的14个程序中,有8个是“善意的”,它们永远不会首先背叛。而且这些善意的程序都轻易就赢了6个非善意的程序。为了决出一个结果来,爱克斯罗德又举行了第二轮竞赛,特别邀请了更多的人,看看能否从一报还一报策略那儿将桂冠夺过来。这次有62个程序参加了竞赛,结果是一报还一报又一次夺魁。竞赛的结论是无可争议的。好人,或更确切地说,具备以下特点的人,将总会是赢家。

   ---- 1.善意的; 2.宽容的; 3.强硬的; 4.简单明了的。
    
    ----一报还一报策略的胜利对人类和其他生物的合作行为的形成所具有的深刻含义是显而易见的。爱克斯罗德在《合作进化》一书中指出,一报还一报策略能导致社会各个领域的合作,包括在最无指望的环境中的合作。他最喜欢举的例子就是第一次世界大战中自发产生的“自己活,也让他人活”的原则。当时前线战壕里的军队约束自己不开枪杀伤人,只要对方也这么做。使这个原则能够实行的原因是,双方军队都已陷入困境数月,这给了他们相互适应的机会。
    
    ----一报还一报的相互作用使得自然界即使没有智能也能产生合作关系。这样的例子很多:真菌从地下的石头中汲取养分,为海藻提供了食物,而海藻反过来又为真菌提供了光合作用;金蚁合欢树为一种蚂蚁提供了食物,而这种蚂蚁反过来又保护了该树;无花果树的花是黄蜂的食物,而黄蜂反过来又为无花果树传授花粉,将树种撒向四处。
    
    ----更广泛地说,共同演化会使一报还一报的合作风格在这个充满背信弃义劣行的世界上蔚然成风。假设少数采取一报还一报策略的个人在这个世界上通过突变而产生了。那么,只要这些个体能互相遇见,足够在今后的相逢中形成利害关系,他们就会开始形成小型的合作关系。一旦发生了这种情况,他们就能远胜于他们周围的那些背后藏刀的类型。这样,参与合作的人数就会增多。很快,一报还一报式的合作就会最终占上风。而一旦建立了这种机制,相互合作的个体就能生存下去。如果不太合作的类型想侵犯和利用他们的善意,一报还一报政策强硬的一面就会狠狠地惩罚他们,让他们无法扩散影响。
    
    ----现在,对博弈论的研究是如此地广泛,以致于有些人说最新的经济学和管理科学都已经利用博弈论的理论和工具重写过了。博弈论中有很多有趣而富于哲理的案例,一报还一报就是其中的一个。它那种善意、宽容、强硬、简单明了的合作策略无论对个人还是对组织的行为方式都有很大的指导意义。
    博弈论是对策论的一个应用或延伸,最早来源于数学,比较著名的人物是获得诺贝尔经济学奖的数学家——纳什,《美丽心灵》就是根据他的生平改编的,一生曲折而又坎坷!下面简要讲述一下这位传奇人物的生平:
    
    他的教授在他的推荐信中写道:“此人是天才”,这是教授所写的最短的推荐信!
    
    爱因斯坦说只有自己在头脑非常清晰的时候才能理解纳什的内容,甚至希望他去学一些物理
    
    他甚至完成了证明论文“上帝是存在的”
    
    他患上了妄想性的精神分裂症,倍受摧残式的医疗,包括化疗、电疗、各种药物、囚禁式的看管等等
    
    他一生孤独,没有朋友、亲人,他与人类几乎格格不入
    
    他的唯一儿子也是天才,也是数学家,也,同样是精神分裂者,现在仍然在折磨之中
    
    94年为了表彰他的《对策论》对经济学几十年深刻影响,诺贝尔评委会没受任何其他影响,毅然授予他诺贝尔经济学奖!
    
    纳什佝偻着身躯,白发苍苍走进咖啡厅,所有的教授默默的走来,将他们的钢笔放在纳什面前的桌子上,这是学者对学者最尊敬的礼节,纳什说:“我那时真的头一次感觉到不被人当怪物来看待的感觉,被当作一个人,真好”,是的,他成了一个被大家接受的人,一个受人尊敬的人。
    
    但是他的心灵是天真而又善良的,即使是受尽心灵的折磨
    
    令人心碎的影片——《美丽的心灵》也获得美国74届奥斯卡8项提名和4项大奖,同年他74岁。
    
    生物种群中的骗子、傻瓜和小气鬼
    
    生物种群中的骗子、傻瓜和小气鬼
    专栏作家东方更夫撰文说,生物学家运用经济学的博弈论,证明了一个到了,即不求报答绝对利他的种群,即使一开始存在,但是随着博弈的多次进行,也将走向灭绝。
    假定某个组织中的所有成员都不能自己抓自己头上的虱子。假定B头上有一只虱子,A为它剔除掉。不久以后,A头上也有了虱子,A当然去找B,希望B也为它除掉,作为回报。结果,B嗤之以鼻,掉头就走。B是个骗子。
    假设一个生物种群中的个体采取两个策略——傻瓜策略和骗子策略中的任何一种。傻瓜可以为任何人梳理头上的虱子,而不问对象是谁,只要对方有需要。骗子只接受傻瓜的利他行为,但却不为别人服务。在这两种策略的博弈中,傻瓜基因很快就要被挤掉。如果生物种群中骗子所占的比例达到90%时,因为只有很少的人为别人梳理头部而导致寄生虫的大量繁殖,如果我们考虑的只限于很少的人为别人梳理头部而导致寄生虫的大量繁殖,如果我们考虑的只限于这两种策略,那就没什么东西能够阻止傻瓜的灭绝,而且整个生物种群大概也难逃覆灭的厄运。
    现在让我们假设还有第三种称为小气鬼的策略。小气鬼愿意为没有打过交道的个体抓虱子,而且为它抓过的个体,它更不忘报答。可是,哪一个骗了它,它就要牢记在心,以后再不肯为这个骗子服务。生物学家证明,小气鬼策略是一种生物进化上稳定的策略,小气鬼优越于骗子或傻瓜,因为小气鬼占多数的种群中,骗子或傻瓜都难以逞强。同样,在骗子占大多数的生物种群中,小气鬼或傻瓜也难以逞强。
    生物学家道金斯对三种策略的博弈进行了计算机模拟。开始模拟时,傻瓜占大多数,小气鬼占少数,骗子也属于少数,与小气鬼的比例相仿。骗子对傻瓜进行无情的剥削先在傻瓜种群中引发了剧烈的崩溃。骗子的激增随着最后一个傻瓜的死去而达到高峰。这时,骗子还要应付小气鬼。在傻瓜激剧减少时,小气鬼在日益取得优势的骗子的打击下也缓慢地减少,但仍能勉强地维持下去。在最后一个傻瓜死去之后,骗子不再能够跟以前一样那么随心所欲地进行剥削。小气鬼在抗拒骗子剥削的情况下开始缓慢地增加,并逐渐取得稳步上升的势头。接着小气鬼突然激增,骗子从此处于劣势并逐渐接近灭绝的边缘。由于处于少数派的有利地位同时因受到小气鬼怀恨的机会相对地减少,骗子这时得以苟延残喘。不过,骗子的覆灭是不可挽回的。它们最终慢慢地相继死去,留下小气鬼独占整个种群。
    根据以上模型,只要一个骗子,利他主义的“傻瓜”的存在,将带来组织内骗子的繁荣和组织的覆灭。小气鬼策略是组织的稳定策略,它的含意“互惠”,是相互报答和感恩,因此也可以说是互惠利他或互惠自私,就象市场中的那种情况一样。假如大家把相互清除寄生虫作为“宪法”固定下来,那么,可以说,这个组织就有一个道德共识。
    编者视点:“傻子”在这个世界一定是无法生存的,因为“傻子”代表“利他”,而“利他”必须“损己”,在一个资源稀缺的世界,任何“利他”行为都是以“损己”为代价的,可以说“利他”的机会成本就是“损己”,而“损己”的极致便是让出你的生存空间给别人。所以,最后的结局,一定是“利他”的“傻子”逐渐地消失,而“骗子”在“傻子”消失之后由于没有了其生存的依托也将自然地走向消失。最后这个世界的生物种群就构成了一个由“小气鬼”所组成的“食物链”——现实存在的世界。当然,“傻子”和“骗子”并非完全消失,即便“小气鬼”有时也会偶尔地充当一回“傻子”和“骗子”,比如说,有人对你说“你应该‘利他’”,那么你一定是碰到了一位“骗子”,他无非是想占你的便宜而已,如果你信了他的话,你也就充当了一回“傻子”。但由于小气鬼把握的原则是“互惠”,他给出的“无偿”机会只有一次,不会有第二次,这就迫使其对手也不得不采取同样的交易规则,否则,交易就会中断,不可能延续。于是,这社会(或市场)就出现了走向公正、有序的转机。
    
   合 作 的 进 化
    
    北京天则经济研究所第139次双周学术讨论会由吴坚忠博士作主题发言,研讨了美国学者艾克斯罗德提出的《合作的进化》问题,艾克斯罗德通过对多人多次重复博弈的对策研究,指出在博弈中产生合作的必要条件和获胜策略的主要特征。当策略群体是按各种策略的得分进行淘汰和进化时,艾克斯罗德发现,群体以一种不可逆转的方式向合作的方向进化,也就是说,群体的合作性随进化过程越来越大。与会学者在主题发言之后展开了热烈的讨论。以下是这次学术讨论会的综合观点。
    
     
    
    一、 博弈中最优策略的产生
    
    艾克斯罗德在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有权威干预个人决策。也就是说,个人可以完全按照自己利益最大化的企图进行决策。在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。
    
    
    社会实践中有很多合作的问题。比如国家之间的关税报复,对他国产品提高关税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失了竞争力,损害了国际贸易的互补优势。在对策中,由于双方各自追求自己利益的最大化,导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。
    
    
    A和B各表示一个人,他们的选择是完全无差异的。选择C代表合作,选择D代表不合作。如果AB都选择C合作,则两人各得3分;如果一方选C,一方选D,则选C的得零分,选D的得5分;如果AB都选D,双方各得1分。
    
    
    显然,对群体来说最好的结果是双方都选C,各得3分,共得6分。如果一方选C,一方选D,总体得5分。如果两人都选D,总体得2分。
    
    
    对策学界用这个矩阵来描述个体理性与群体理性的冲突:每个人在追求个体利益最大化时,就使群体利益受损,这就是囚徒困境。在矩阵中,对于A来说,当对方选C,他选D得5分,选C只得3分;当对方选D,他选D得1分,选C得零分。因此,无论对方选C或D,对A来说,选D都得分最多。这是A单方面的优超策略。而当两个优超策略相遇,即A,B都选D时,结果是各得1分。这个结果在矩阵中并非最优。困境就在于,每个人采取各自的优超策略时,得出的解是稳定的,但不是帕累托最优的,这个结果体现了个体理性与群体理性的矛盾。在数学上,这个一次性决策的矩阵没有最优解。
    
    
    如果博弈进行多次,只要对策者知道博弈次数,他们在最后一次肯定采取互相背叛的策略。既然如此,前面的每一次也就没有合作的必要,因此,在次数已知的多次博弈中,对策者没有一次会合作。
    
    
    如果博弈在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作并达成默契时,对策者就能持续地各得3分,但如果持续地不合作的话,每个人就永远得1分。这样,合作的动机就显现出来。多次对局下,未来的收益应比现在的收益多一个折现率W,W越大,表示未来的收益越重要。在多人对策持续进行下去,且W比较大,即未来充分重要时,最优的策略是与别人采取的策略有关的。假设某人的策略是,第一次合作,以后只要对方不合作一次,他就永不合作。对这种对策者,当然合作下去是上策。假如有的人不管对方采取什么策略,他总是合作,那么总是对他采取不合作的策略得分最多。对于总是不合作的人,也只能采取不合作的策略。
    
    
    艾克斯罗德做了一个实验,邀请多人来参加游戏,得分规则与前面的矩阵相同,什么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两博弈,以找出什么样的策略得分最高。
    
    
    第一轮游戏有14个程序参加,再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作),运转了300次。结果得分最高的程序是加拿大学者罗伯布写的“一报还一报“(tit for tat)。这个程序的特点是,第一次对局采用合作的策略,以后每一步都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。艾克斯罗德还发现,得分排在前面的程序有三个特点:第一,从不首先背叛,即“善良的“;第二,对于对方的背叛行为一定要报复,不能总是合作,即“可激怒的“;第三,不能人家一次背叛,你就没完没了的报复,以后人家只要改为合作,你也要合作,即“宽容性“。
    
    
    为了进一步验证上述结论,艾氏决定邀请更多的人再做一次游戏,并把第一次的结果公开发表。第二次征集到了62个程序,加上他自己的随机程序,又进行了一次竞赛。结果,第一名的仍是“一报还一报“。艾氏总结这次游戏的结论是:第一,“一报还一报“仍是最优策略。第二,前面提到的三个特点仍然有效,因为63人中的前15名里,只有第8名的哈灵顿程序是“不善良的“,后15名中,只有1个总是合作的是“善良的“。可激怒性和宽容性也得到了证明。此外,好的策略还必须具有的一个特点是“清晰性“,能让对方在三、五步对局内辨识出来,太复杂的对策不见得好。“一报还一报“就有很好的清晰性,让对方很快发现规律,从而不得不采取合作的态度。
    
   二、 合作的进行过程及规律
    
    “一报还一报“的策略在静态的群体中得到了很好的分数,那么,在一个动态的进化的群体中,这种合作者能否产生、发展、生存下去呢?群体是会向合作的方向进化,还是向不合作的方向进化?如果大家开始都不合作,能否在进化过程中产生合作?为了回答这些疑问,艾氏用生态学的原理来分析合作的进化过程。
    
    
    假设对策者所组成的策略群体是一代一代进化下去的,进化的规则包括:一,试错。人们在对待周围环境时,起初不知道该怎么做,于是就试试这个,试试那个,哪个结果好就照哪个去做。第二,遗传。一个人如果合作性好,他的后代的合作基因就多。第三,学习。比赛过程就是对策者相互学习的过程,“一报还一报“的策略好,有的人就愿意学。按这样的思路,艾氏设计了一个实验,假设63个对策者中,谁在第一轮中的得分高,他在第二轮的群体中所占比例就越高,而且是他的得分的正函数。这样,群体的结构就会在进化过程中改变,由此可以看出群体是向什么方向进化的。
    
    
    实验结果很有趣。“一报还一报“原来在群体中占1/63,经过1000代的进化,结构稳定下来时,它占了24%。另外,有一些程序在进化过程中消失了。其中有一个值得研究的程序,即原来前15名中唯一的那个“不善良的“哈灵顿程序,它的对策方案是,首先合作,当发现对方一直在合作,它就突然来个不合作,如果对方立刻报复它,它就恢复合作,如果对方仍然合作,它就继续背叛。这个程序一开始发展很快,但等到除了“一报还一报“之外的其它程序开始消失时,它就开始下降了。因此,以合作系数来测量,群体是越来越合作的。
    
    
    进化实验揭示了一个哲理:一个策略的成功应该以对方的成功为基础。“一报还一报“在两个人对策时,得分不可能超过对方,最多打个平手,但它的总分最高。它赖以生存的基础是很牢固的,因为它让对方得到了高分。哈灵顿程序就不是这样,它得到高分时,对方必然得到低分。它的成功是建立在别人失败的基础上的,而失败者总是要被淘汰的,当失败者被淘汰之后,这个好占别人便宜的成功者也要被淘汰。
    
    
    那么,在一个极端自私者所组成的不合作者的群体中,“一报还一报“能否生存呢?艾氏发现,在得分矩阵和未来的折现系数一定的情况下,可以算出,只要群体的5%或更多成员是“一报还一报“的,这些合作者就能生存,而且,只要他们的得分超过群体的总平均分,这个合作的群体就会越来越大,最后蔓延到整个群体。反之,无论不合作者在一个合作者占多数的群体中有多大比例,不合作者都是不可能自下而上的。这就说明,社会向合作进化的棘轮是不可逆转的,群体的合作性越来越大。艾克斯罗德正是以这样一个鼓舞人心的结论,突破了“囚犯困境“的研究困境。
    
    
    在研究中发现,合作的必要条件是:第一、关系要持续,一次性的或有限次的博弈中,对策者是没有合作动机的;第二、对对方的行为要做出回报,一个永远合作的对策者是不会有人跟他合作的。
    
    
    那么,如何提高合作性呢?首先,要建立持久的关系,即使是爱情也需要建立婚姻契约以维持双方的合作。第二、要增强识别对方行动的能力,如果不清楚对方是合作还是不合作,就没法回报他了。第三、要维持声誉,说要报复就一定要做到,人家才知道你是不好欺负的,才不敢不与你合作。第四、能够分步完成的对局不要一次完成,以维持长久关系,比如,贸易、谈判都要分步进行,以促使对方采取合作态度。第五、不要嫉妒人家的成功,“一报还一报“正是这样的典范。第六、不要首先背叛,以免担上罪魁祸首的道德压力。第七、不仅对背叛要回报,对合作也要作出回报。第八、不要耍小聪明,占人家便宜。
    
    
    艾克斯罗德在《合作的进化》一书结尾提出几个结论。第一、友谊不是合作的必要条件,即使是敌人,只要满足了关系持续,互相回报的条件,也有可能合作。比如,第一次世界大战期间,德英两军在战壕战中遇上了三个月的雨季,双方在这三个月中达成了默契,互相不攻击对方的粮车给养,到大反攻时再你死我活地打。这个例子说明,友谊不是合作的前提。第二、预见性也不是合作的前提,艾氏举出生物界低等动物、植物之间合作的例子来说明这一点。但是,当有预见性的人类了解了合作的规律之后,合作进化的过程就会加快。这时,预见性是有用的,学习也是有用的。
    
    
    当游戏中考虑到随机干扰,即对策者由于误会而开始互相背叛的情形时,吴坚忠博士经研究发现,以修正的“一报还一报“,即以一定的概率不报复对方的背叛,和“悔过的一报还一报“,即以一定的概率主动停止背叛。群体所有成员处理随机环境的能力越强,“悔过的一报还一报“效果越好,“宽大的一报还一报“效果越差。
    
     
    
    三、 艾克斯罗德的贡献与局限性
    
    艾克斯罗德通过数学化和计算机化的方法研究如何突破囚徒困境,达成合作,将这项研究带到了一个全新境界,他在数学上的证明无疑是十分雄辩和令人信服的,而且,他在计算机模拟中得出的一些结论是非常惊人的发现,比如,总分最高的人在每次博弈中都没有拿到最高分。
    
    
    艾氏所发现的“一报还一报“策略,从社会学的角度可以看作是一种“互惠式利他“,这种行为的动机是个人私利,但它的结果是双方获利,并通过互惠式利他有可能覆盖了范围最广的社会生活,人们通过送礼及回报,形成了一种社会生活的秩序,这种秩序即使在多年隔绝,语言不通的人群之间也是最易理解的东西。比如,哥伦布登上美洲大陆时,与印地安人最初的交往就开始于互赠礼物。有些看似纯粹的利他行为,比如无偿损赠,也通过某些间接方式,比如社会声誉的获得,得到了回报。研究这种行为,将对我们理解社会生活有很重要的意义。
    
    
    囚徒困境扩展为多人博弈时,就体现了一个更广泛的问题──“社会悖论“,或“资源悖论“。人类共有的资源是有限的,当每个人都试图从有限的资源中多拿一点儿时,就产生了局部利益与整体利益的冲突。人口问题、资源危机、交通阻塞,都可以在社会悖论中得以解释,在这些问题中,关键是通过研究,制定游戏规则来控制每个人的行为。
    
    
    艾克斯罗德的一些结论在中国古典文化道德传统中可以很容易地找到对应,“投桃报李“、“人不犯我,我不犯人“都体现了“tit for tat“的思想。但这些东西并不是最优的,因为“一报还一报“在充满了随机性的现实社会生活里是有缺陷的。对此,孔子在几千年前就说出了“以德报德,以直报怨“这样精彩的修正策略,所谓“直“,就是公正,以公正来回报对方的背叛,是一种修正了的“一报还一报“,修正的是报复的程度,本来会让你损失5分,现在只让你损失3分,从而以一种公正审判来结束代代相续的报复,形成文明。
    
    
    但是,艾氏对博弈者的一些假设和结论使其研究不可避免地与现实脱节。首先,《合作的进化》一书暗含着一个重要的假定,即,个体之间的博弈是完全无差异的。现实的博弈中,对策者之间绝对的平等是不可能达到的。一方面,对策者在实际的实力上有差异,双方互相背叛时,可能不是各得1分,而是强者得5分,弱者得0分,这样,弱者的报复就毫无意义。另一方面,即使对局双方确实旗鼓相当,但某一方可能怀有赌徒心理,认定自己更强大,采取背叛的策略能占便宜。艾氏的得分矩阵忽视了这种情形,而这种赌徒心理恰恰在社会上大量引发了零和博弈。因此,程序还可以在此基础上进一步改进。
    
    
    其次,艾氏认为合作不需预期和信任。这是他受到质疑颇多之处。对策者根据对方前面的战术来制定自己下面的战术,合作要求个体能够识别那些曾经相遇过的个体并且记得与其相互作用的历史,以便作出反应,这些都暗含着“预期“行为。在应付复杂的对策环境时,信任可能是对局双方达成合作的必不可少的环节。但是,预期与信任如何在计算机的程序中体现出来,仍是需要研究的。
    
    
    最后,重复博弈在现实中是很难完全实现的。一次性博弈的大量存在,引发了很多不合作的行为,而且,对策的一方在遭到对方背叛之后,往往没有机会也没有还手之力去进行报复。比如,资本积累阶段的违约行为,国家之间的核威慑。在这些情况下,社会要使交易能够进行,并且防止不合作行为,必须通过法制手段,以法律的惩罚代替个人之间的“一报还一报“,规范社会行为。这是艾克斯罗德的研究对制度学派的一个重要启发。
    
    当一个个体在条件给定的条件下,实现了他的最大化目标,他就达到了个体均衡。而因为人们的决策目标各不一样,约束条件也各不相同,所以他们作出各种不同的选择。这些选择相互影响、相互作用,最终将汇成一个动态化的经济图景。这个图景就是每个经济个体与环境相博弈的结果。如果在一个经济状态下,每个人都不愿改变自己的均衡状态,那么这种状态就是博弈论中所谓的“纳什均衡”,也可称做“全局博弈均衡”。
    
    这幅场景不过是非合作博弈导致的非理想状态而已。要达致全局理想的状态,唯有合作一途。至于具体的运用,这要具体问题具体分析。合作的手段和方式可能千变万化,但寻求双赢的信念要存乎心间。不能因为困难而放弃心中的信念。