囚徒困境与纳什均衡的纳什均衡有几个

约翰?纳什:均衡博弈走出“囚徒困境”
&&&&来源:&&&&
  人物简介
  约翰?纳什,全名约翰?福布斯?纳什(John Forbes Nash,Jr。),著名经济学家、博弈论创始人、电影《美丽心灵》男主角原型。前麻省理工学院助教,后任普林斯顿大学数学系教授,主要研究博弈论、微分几何学和偏微分方程。日出生在美国西弗吉尼亚州工业城布鲁?菲尔德的一个中产阶级家庭。
  1950年,约翰?纳什获得美国普林斯顿高等研究院的博士学位,他的博士论文中有一个重要发现,这就是后来被称为“纳什均衡”的博弈理论。1994年,获诺贝尔经济学奖。
  日,约翰?纳什夫妇遇车祸,在美国新泽西州逝世,享年86岁。
  舆情要点
  孤独中与数学结缘
  纳什遭遇车祸的消息在周末曝出,微博等社交媒体迅速被刷屏。他的传奇经历和均衡理论,重新被世人关注和讨论。
  纳什从小显得内向而孤僻。比起和其他孩子结伴玩耍,他总是偏爱一个人埋头看书或躲在一边玩自己的玩具。在学校里,纳什的社交障碍、特立独行、不良的学习习惯等时常受到老师诟病。这些问题令他的父母忧虑,曾经想过很多办法,但收效甚微。
  然而纳什的母亲对他充满信心,而后来的事实也证明,另辟蹊径恰恰是他数学才华的体现。高中阶段,他常常可以用几个简单的步骤取代老师一黑板的推导和证明。而真正让纳什认识到数学之美的,恐怕要数他中学时期接触到的一本由贝尔所写的数学家传略《数学精英》,但此时的他并未萌生成为数学家的念头。
  1945年6月,纳什进入卡耐基梅隆大学,开始化学工程的专业学习,后来才逐渐展示出数学才能。1948年,大学三年级的纳什同时被哈佛、普林斯顿、芝加哥和密执安大学录取。由于优厚的奖学金以及与家乡较近的地理位置,他选择了普林斯顿大学。他显露出对拓扑、代数几何、博弈论和逻辑学的兴趣。
  提出“纳什均衡”后淡出公众视野
  1950年,22岁的纳什以非合作博弈为题的27页博士论文毕业。他的博士论文中提出了一个重要概念,也就是后来被称为“纳什均衡”的博弈理论。
  毕业后他先后在美国兰德公司、普林斯顿大学、麻省理工学院工作和教学,并在1957年结婚。就在事业爱情双双得意的时候,纳什也因为喜欢独来独往,喜欢解决折磨人的数学问题而被人们称为“孤独的天才”。也正是在此时,他精神失常的症状开始显现,最终被诊断为精神分裂症,经历着不断的治疗和复发。
  这段时间,他本人几乎被学术界遗忘,多个奖项因为其健康状况而没有授予,但他的名字出现在各种课本和论文上。20多年间经过了几家医院的治疗,逐渐康复。此时已是上世纪80年代末,醒来的纳什迎来了他一生中的最高荣誉――1994年诺贝尔经济学奖,时年66岁。2001年以其经历为原型改编的影片《美丽心灵》上映。
  纳什和均衡理论的影响力从经济学发展到管理学、社会学、政治学等多个领域,但他20多年的出世生活,让人们很少知道与其生活在同一时代,在遭遇车祸的新闻发出后,才发现此前纳什一直健在。
  均衡中的不均衡
  “纳什均衡”是指所有参与人战略的这样一种组合:在这一组合中,给定其他参与人的战略,没有任何人有积极性改变自己的战略。换言之,构成纳什均衡的战略对每个人都是最优的。
  常被提及的“囚徒困境”即是“纳什均衡”理论的经典模型。即两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱五年;若互相揭发,则因证据确实,二者都判刑两年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。在社会管理、商业竞争方面,也会出现类似情况。
  然而“纳什均衡”本身不包含价值判断,这种“最优”状态的作用可好可坏。显而易见,上述囚徒的策略是保守的,有些“损人不利已”,并非收益最大化。
  经济学家张维迎以中国改革开放为例,人民公社时期,政府的目标是农民辛苦劳动,大家都有粮食吃,但结果是在人民公社中,农民并没有按照政府的意志行事,反而是没有生产积极性,最后导致贫困。在这个例子中,政府有自己的意志――集体劳动、平均分配、大家有饭吃,农民也有自己的意志――消极应对,博弈的过程中自然形成一个“纳什均衡”――贫困。
  而改革开放后,政府改变政策,农民可以拥有自己的土地,摆脱了大锅饭的束缚,生产积极性提高,生活水平也相应提高,这又形成一个新的纳什均衡:政府的意志――家庭联产承包责任制、大家有饭吃,农民的意志――积极劳动,形成的“纳什均衡”――产量与生活水平提高。
  从坏的“纳什均衡”到好的“纳什均衡”需要一系列的制度调整,前提就是博弈的双方尊重彼此的自由意志与选择。全面的理解“纳什均衡”概念,就是要想让人与人之间合作,首先要找到大家不合作的原因,否则不可能找到使人们更好合作的方法。
  媒体评论摘要
  因为“纳什均衡”是脆弱的,所以不均衡是可能的,人的主观能动性和创造力才成为第一性。过去,在增长经济学的霸权语境下,物质第一性,一切社会活动的均衡只能依赖不断递进的物质发展来维持。现在,意愿第一性的时候,物质为意愿服务,即便在有限的物质条件下,社会仍然能够调动积极的意愿,打破物质条件下的“囚徒困境”,需寻找没有增长的富裕社会模式。环顾全球,现在比任何时候都需要以打破均衡的视角看“纳什均衡”。――《新闻晨报》
  在社会中,“囚徒困境”虽然普遍存在,但却不是不能破解的。为了破解当今种种社会问题、在改革走进“深水区”时仍将其良好地推进,让社会成员走出“囚徒困境”、选择合作并达成纳什均衡是一个重要的思路。――《中国经济时报》
  网友评论摘编
  @秋叶:看过电影《美丽心灵》的人应该知道数学家纳什,这个天才人物饱受精神分裂症困扰,又奇迹般恢复,日前他和妻子遭遇车祸,意外离世。他的数学研究“纳什均衡”告诉我们这个世界不仅仅是你赢我输,存在双方改变策略都不会变得更好的博弈均衡点,这一点深刻改变了人类的博弈命运。
  @魏坤琳:向伟大的纳什致敬。媒体让你被人熟知,也让你被人误解。或许,你不是疯子,而是这个世界有点疯狂。
  @芮必峰:纳什夫妇离世,举世哀掉。媒体报道较多关注纳什在经济和数学领域的巨大贡献,但这对夫妇相濡以沫、如泣如歌的爱情故事更令我感动。纳什三十岁患严重精神分裂症,选择与妻子离婚,而妻子不离不弃,悉心照顾其三十年,纳什神奇般康复,并取得巨大学术成就,功成名就的纳什最终选择与离异的妻子复婚。
  舆情点评
  有学者认为,“纳什均衡”之所以伟大,或许就因为它普通,而且普通到几乎无处不在。纳什均衡理论既适用于人类的行为规律,也适合于人类以外的其他生物的生存、运动和发展的规律。“纳什均衡”和博弈论的桥梁作用,使经济学与其他社会科学、自然科学的联系更加紧密,形成了经济学与其他学科相互促进的良性循环。
  这在今天的基层社会治理中有着重要意义。例如今天市场上的不诚信行为,部分人开始讲究生活品质,出游“海淘”,以及舆论场的种种冲突,博弈论制度分析为我们提供了在动态环境中从应对具体事件,到分析改革和制度建构的重要方法。任何制度,只有构成一个“纳什均衡”,才能得到人们的自觉遵守。而运用博弈论制度分析的方法剖析制度建构问题,会发现“纳什均衡”有助于我们明辨制度建构的宗旨,找到坏均衡的原因,通过调整走向良好的“纳什均衡”。
(责编:王晓华、朱明刚)
善意回帖,理性发言!
使用其他账号登录:
恭喜你,发表成功!
请牢记你的用户名:,密码:,立即进入修改密码。
s后自动返回
5s后自动返回
恭喜你,发表成功!
5s后自动返回
最新评论热门评论
社会万象|精彩博客
24小时排行&|&
人 民 网 版 权 所 有 ,未 经 书 面 授 权 禁 止 使 用
Copyright &
by .cn all rights reserved
人 民 网 版 权 所 有 ,未 经 书 面 授 权 禁 止 使 用
Copyright &
by .cn. all rights reserved纳什均衡和囚徒困境之间的联系,
圈圈6yo69t
纳什均衡由约翰•纳什于20世纪50年代在一系列有关博弈论的论文中提出.他假设有n个局中人参与博弈,在给定其他人策略的条件下,每个局中人选择自己的最优策略(个人最优策略可能依赖于也可能不依赖于他人的战略),从而使自己效用最大化.所有局中人策略构成一个策略组合(Strategy Profile).纳什均衡就是指这样一种战略组合,这种策略组合由所有参与人最优策略组成,即在给定别人策略的情况下,没有人有足够理由打破这种均衡.囚徒困境所形成的均衡解就是纳什均衡解,即两个囚徒从自身效用最大化的角度考虑都会选择坦白,但这并非帕累托最优状态.
为您推荐:
其他类似问题
扫描下载二维码安全检查中...
请打开浏览器的javascript,然后刷新浏览器
< 正在遭受攻击,请稍等片刻.
还剩 5 秒&纳什均衡与囚徒困境
纳什均衡与囚徒困境
——现代经济学学习笔记之三十二
博弈论创立于1944年,是用来研究行为互动局势的一种通用的分析方法,数学方法是它的基础和支撑。在过去的几十年中,博弈论取得了很大的发展,广泛地应用于各种社会科学研究,尤其在经济学领域,博弈论已经成为现代经济学的重要分支。接触了几个学经济学的硕士研究生,在毕业论文中,言必谈“囚徒困境”和“纳什均衡”,对于这种具有博弈论的思维既是发展也是时尚。
在企业、居民、政府或其他部门内,经济生活包含了许多策略上相互作用的情况。博弈论所研究的这样一种方法:两个或更多的参与者,在类似于市场这样的竞技场上相互作用,选择对每一方都产生共同影响的行动或策略。简单地说,当你开始考虑他人会如何对你的行动进行反应时,你便进入了博弈论的领域.
一、博弈论的发展与基本思路&&&
博弈论的开创和发展应主要归功于两个名叫约翰的数学天才。美籍匈牙利的数学天才约翰&.冯&诺依曼是20世纪最杰出的数学家,众所周知,他在1946年发明的电子计算机,大大促进了科学技术的进步,大大促进了社会生活的进步.鉴于冯·诺依曼在发明电子计算机中所起到关键性作用,他被西方人誉为"计算机之父".而在经济学方面,他也有突破性成就,被誉为“博弈论之父”。在物理领域,冯·诺依曼在30年代撰写的《量子力学的数学基础》已经被证明对原子物理学的发展有极其重要的价值。在化学方面也有相当的造诣,曾获苏黎世高等技术学院化学系大学学位。与同为犹太人的哈耶克一样,他无愧是上世纪最伟大的全才之一。尽管对具有博弈性质的问题的研究可以追溯到19世纪甚至更早。例如,1838年古诺(Cournot)简单双寡头垄断博弈;1883年伯特兰和1925年艾奇沃思研究了两个寡头的产量与价格垄断;2000多年前中国著名军事家孙武的后代孙膑利用博弈论方法帮助田忌赛马取胜等等都属于早期博弈论的萌芽,其特点是零星的,片断的研究,带有很大的偶然性,很不系统。冯·诺依曼和摩根斯特恩的《博弈论与经济行为》一书中提出的标准型、扩展型和合作型博弈模型解的概念和分析方法,奠定了这门学科的理论基础。
约翰&纳什(John&Nash),主要贡献是年在普林斯顿读博士学位时做出的,当时他才21岁。他的天才发现———非合作博弈的均衡,即“纳什均衡”,彻底改变了人们对竞争和市场的看法。他证明了非合作博弈及其均衡解,并证明了均衡解的存在性。纳什的研究奠定了现代非合作博弈论的基石,后来的博弈论研究基本上都沿着这条主线展开的。然而,纳什天才的发现却遭到冯&诺依曼的断然否定,在此之前他还受到爱因斯坦的冷遇,但是骨子里挑战权威、藐视权威的本性,使纳什坚持了自己的观点,终成一代大师。尽管他身体不好,近三十年的精神分裂,但还是在1994年和约翰·海萨尼、莱因哈德·泽尔腾三人共同分享了诺经济学奖。
&&& 2002年纳什在北京演讲,介绍自己的理论
2005年的诺贝尔经济学奖授予具有美国和以色列双重国籍的罗伯特·奥曼和美国人托马斯·谢林,以表彰他们“通过博弈论分析改变了我们对冲突与合作的理解”。这再一次表明博弈论在现代经济学中的重要位置。
博弈论的基本结构包括:具有不同策略、行动的竞争者,他们的支付和分配情况以及在每一种结果下博弈者得到的其他利益。关键的新概念就是博弈里的支付矩阵,它支出了对弈者的策略、利润的分配和不同博弈者的利益;
在经济学中,我们一般都假定企业要使利润最大化,而消费者要使效用最大化。博弈论中的一个新的要素就是根据你的对手的目标和行动去进行思考,并且在分析你的对手的目标和行动的基础上进行决策。“但是,你必须始终记住,你的对手也始终在分析你的战略”。
博弈论的指导思想是:假设你的对手在研究你的策略,并采取追求自身最大利益的时候,你如何选择最有效的策略。
二、纳什均衡&&
无论其他博弈者采用何种战略,该博弈者的策略总是最好的;在两个博弈者都采用占优策略时,我们称其结果是一种占优均衡(dominant&
equilibrium),这是特殊情况,博弈论更多研究的不是这种情况。
高价格&&&&&&&&&&
正常价格&&&&&&&&&&&&&&&&&
____________________________&
200&&&&&&&B&&&&&
100&&&&&&&&&&&&&&
-20&&&&&&&&&&&&
____________________________&&&&&
150&&&&&&&&&&&&&&
____________________________&
如图,在对抗博弈中,每个企业按正常价格都可盈利10万元,如果双方抬高价格以达到垄断水平,则共同利润最大。然而,由于每一企业都想欺骗对手并通过降价获取更多利润,因而确保了在没有合谋的情况下,纳什均衡(Nash
equilibrium)成为一个普遍的事实。
纳什均衡:在对抗性博弈中,体现了博弈论的一条基本原则:把自己的战略建立在假定对手会按其最佳利益行动的基础上。纳什均衡是一个在其他博弈者的策略给定时,没有一方还能改善自己的获利的境况。即,当企业B选择策略Sb时,假定企业A选择策略Sa,如果博弈的任何一方在对方坚持其最初的策略不变的条件下都无法找到一种更好的策略,那么这个策略组合(Sa,Sb)就是一种纳什均衡。也称非合作均衡,因为每一方选择策略时,都没有共谋。
纳什均衡可以归结为“由策略变量控制的行为函数”,这个看起来似乎非常简洁的研究背后,有纳什建造数学模型、控制实验和归纳结果的天才思路。
三、囚徒困境&&&
纳什均衡具有非合作性,因此,这种均衡在博弈双方收益相对较少的时候存在。(做相同生意的人是很少相聚的,在一些人想努力提价时,谈话终止了----亚当.斯密)合谋可以使价格提高,从而获得垄断利润。即博弈的双方结成联盟,以实现总利润最大化的策略。但是,合谋不会长久,因为反垄断在市场经济国家的逐步实施,将合谋认定为非法;另外,合谋的双方也经常欺骗对方,修改价格以实现自身利益最大化,因此,合谋很快瓦解,双方价格逐步降低到正常水平。这也是为什么卡特尔组织经常解体的原因。
所以,我们可以推理到完全竞争市场,可以认为一个完全竞争均衡是一个纳什均衡或非合作均衡,每个企业和消费者都在考虑其他各方的价格策略后做出决定。
囚徒困境(Prisoner‘s&
dilemma)是博弈论中最著名的例子。两个同案犯被分别关押,律师分别会见二人,他说:“我有足够的把握让你们俩都在监狱里只关一年。但是,我要告诉你们:如果你们中间有一个人坦白的话,则坦白者只被判3个月徒刑,而你的同伙却将被判10年,而如果你们俩都坦白,则你们将都会被判5年。”最后的结果是两个囚徒都选择坦白,从而每人被判5年。只有当他们都选择不坦白或都选择舍己为人的策略时,他们才能获得坐一年牢的最好结果。
无论从心理学角度还是从概率来说,各判五年的糟糕结果都具有必然性,很难摆脱,因此这个博弈被称为"囚徒困境"。
可以用囚徒的困境反映个体理性和集体理性的矛盾,个体效用最大化并不能导致社会福利最大化,当合作的时候达到社会福利最大话的时候,个体有面临着巨大的背叛的诱惑。我们需要创建一中机制,提高背叛的成本,鼓励合作,因为我们知道,人是利己的,在利己的驱动下,可以做出有利社会的事,也有可能作出有害社会的事,所以利己并没有错,这就需要我们用制度引导人们的行为。这是对经济学基础的重大挑战,因而倍受关注。
很多经济问题,都可以用囚徒困境来描述,比如电解铝行业产能过剩,几乎全行业亏损,可是投资还在不断增加,全行业都在拼亏;又如,不断上涨的房价,似乎将绝大多数住房需求者带入了囚徒困境,现在购房,嫌房价太高,现在不买,明年更高,现在去购买,自然推动房价,最后的结果就是,大家都在相对较高的价格买了房子。
经过近30年的改革开放,我国的外汇储备超过日本成为世界上第一号储备大国,储备一万多亿美元,且增长速度还在加快。但是美元在不断贬值,我们和其他储备大国都面临着一个困境:如何处置手中大量的美元,使损失能达到最小?
从目前的世界经济形势看,在可预见的将来,中国在这个问题上不发生损失已经是不可能的了。事实上,我们已经陷入关于美元的"囚徒困境"中了:如果我们和其他国家都继续持有美元而不抛售,甚至增持美元,阻止美元贬值,这样大家的损失最小,就如同囚徒都不坦白只会被各判一年一样;如果一家能够悄悄地大量抛售美元,转成欧元或其他外汇,或者黄金,又不引起其他经济体的注意,而且其他经济体也不抛售的话,他就可能在美元大跌之前脱身,从而损失最小,而其他经济体则遭受惨重损失。这就如同囚徒一人坦白就会被从宽判三个月,而另一人被重判十年一样;第三种情况是,大家都抛售,结果都损失惨重。就像囚徒两个人都坦白并都被判五年一样。&
在国际金融市场上,前两种策略可能性很小,最有可能的就是第三种——大家共同损失,抛开博弈论的角度,还有一个美国自身的原因,想要避免储备的损失是很难的了,是摆在政府和央行面前的重大难题。&
还有更好的解决办法吗?让我们一起寻找吧。
除了囚徒困境以外,还有污染博弈和军备竞赛等重要的例子说明了博弈论的广泛用途。污染博弈是指当存在类似污染这样的外部性时,任何企业都不再有可能通过减少污染而增加利润。在这种情况下,纳什均衡是无效率的。(看不见的手不能正常发挥作用的另一种论证方式)这个时候,就需要政府介入,通过设置有效的规章制度,实施污染排放收费,或明确产权,政府可以诱导企业“低污染”的策略移动。
军备竞赛是一个非常危险的非效率的纳什均衡。美国和前苏联在近半个世纪的时间里开展的军备竞赛,导致了大规模的武力扩张。如果双方都采取合作性的态度,就可以大大地减少战争的威胁。
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。囚徒困境_百度百科
“囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱五年;若互相揭发,则因证据确实,二者都判刑两年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。最终导致纳什均衡仅落在非合作点上的博弈模型。[1]
囚徒困境(prisoner&#39;s dilemma ):两个被捕的囚徒之间的一种特殊博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困难的。囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。[1]
囚徒困境来源
囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,抵赖的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,比起抵赖的判十年,坦白还是比抵赖的好。结果,两个嫌疑犯都选择坦白,各判刑八年。如果两人都抵赖,各判一年,显然这个结果好。但这个办不到,因为它不能满足人类的理性要求。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。
囚徒困境单次多重
单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。
在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,趋向于。
囚徒困境主旨
囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以所设立之利益(刑期)作考量。
囚徒困境类别
囚徒困境固定困境
试想像囚徒困境的情况进行十次或以下。
我们可以合理地设想,如果囚徒第一次被对方指控,第二次这个囚徒也会指控对方。相反,如果第一次
别人保持沉默,建立了互信的关系,你也会保持沉默,导致帕累托最优。
当然,两个囚徒都会有相似的想法,在第一局保持沉默,以期望建立互信关系,所以双方都会保持沉默。第二局时,双方亦应有相似的想法,继续保持沉默,以期继续在互信的情况下进行第三局,以致余下的八局。
这种想法合理吗?
在第十局时,互信的关系明显是没有意义的,因为十局已经完结,囚徒没有必要为维持互信的关系而沉默(没有第十一局),所以第十局囚徒一定会背叛对方的,理由和只有一局囚徒困境一样。
问题是,既然大家都知道在第十局,无论如何对方都会背叛自己的,你在第九局保持沉默也是没有意思的,要知道,保持沉默(友好关系)的原因是为了希望下一局别人保持沉默。所以双方都一定会背叛对方的。
下一个问题是,双方都有相同的想法,明知第九局对方会背叛自己,所以第八局保持沉默也是没有意思的,第七局亦然,如此类推,纳什均衡是十局都会互相背叛,建立互信关系是没有可能的。
只有在囚徒困境的局数大家都不肯定的情况下,上述的推论才不会发生,才会出现互相保持沉默的现象。
以上推论即为“蜈蚣博弈”,它揭示了倒推法的缺陷。事实上,“囚徒困境”可以看成是一环的“蜈蚣博弈”。
囚徒困境经典困境
1950年,由就职于的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
若二人都保持沉默(相关术语称互相“合作”),则二人同样判监1年。
若二人都互相检举(相关术语称互相“背叛”),则二人同样判监8年。
用表格概述如下:
二人同服刑1年
乙服刑10年,甲即时获释
甲服刑10年,乙即时获释
二人同服刑8年
如同的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益,这也就是经典经济学中的“理性人假设”。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:
若对方沉默时,背叛会让我获释,所以会选择背叛。
若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑8年。
这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑1年,总体利益更高,结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:中,帕累托最优和纳什均衡是相冲突的。
囚徒困境形式
整理囚徒困境的基本博弈结构,可更清楚地分析囚徒困境。 常用这种博弈的一般形式分析各种论题。以下是实现一般形式的其中一例:
有两个参与者和一个。参与者每人有一式两张卡片,各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下,放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后,庄家翻开两个参与者卡片,根据以下规则支付利益:
· 一人背叛、一人合作:背叛者得5分(背叛诱惑),合作者0分(受骗支付)。
· 二人都合作:各得3分(合作报酬)。
· 二人都背叛:各得1分(背叛惩罚)。
用表格展示支付如下(以红和蓝分别表示二参与者):
一般形式囚徒困境的
以“T、R、P、S”符号表示
以“胜-负”术语表示
一般形式囚徒困境的
以“T、R、P、S”符号表示
以“胜-负”术语表示
简单博弈获得的点数可以得出一些一般化的结论。
T、R、P、S符号表
中文(非术语)
Temptation
单独背叛成功所得。
共同合作所得
Punishment
共同背叛所得
被单独背叛所获
若以T(Temptation)=背叛诱惑,R(Reward)=合作报酬,P(Punishment)=背叛惩罚,S(Suckers)=受骗支付,以个人选择得分而言,可得出以下。
(解:从5&3&1&0获得以上不等式)
若以整体获分而言,将得出以下不等式。
2R&T+S或2R&2P
(解:2×3&5+0或2×3&2x1;合作2人共得6分,比起互相背叛的共得2分及单独背叛的共得5分,显然合作获分比背叛高。合作在团体而言是支配性策略。)
而或重复的囚徒困境将会使参与者从注重T&R&P&S转变成注重2R&T+S。就是说将使参与者脱离困境。以上理论是道格拉斯·霍夫施塔特(侯世达)创建的。
囚徒困境实例
上述例子可能显得不甚自然,但现实中,无论是人类社会或大自然都可以找到类似囚徒困境的例子,将结果划成同样的支付矩阵。社会科学中的经济学、政治学和社会学,以及自然科学的动物行动学、进化生物学等学科,都可以用囚徒困境分析,模拟生物面对无止境的囚徒困境博弈。囚徒困境可以广为使用,说明这种博弈的重要性。以下为各界例子:
囚徒困境地产例子
著名作家在他的《杂文也疯狂》中有这样一个单篇——《泡沫中的“囚徒困境” 》。记述了2008年房地产领域的囚徒困境。
我们学习的时候必定会学习博弈论,学习就必定涉及“囚徒困境”模型,而我一直认为,在所有市场博弈模型中,“囚徒困境”是最为接近心理学的一个,也是最能揭示善恶的一个,更是最能体现集体智慧的一个,选择背叛还是合作,始终是它不变的主题……
我们把眼光聚焦到当前的房地产市场中来吧,一个不小的“囚徒困境”已经展现在我们眼前,首先放弃解决方案的是万科,可想而知,在当前的市场环境下,它预期到的博弈的纳什均衡,显然是未来困境下的房地产商之间的普遍相互背叛,也就是说,万科在这场“囚徒困境”中,之所以选择首先动手,出卖所有除它之外的房地产商,是因为它预计在这种困境中,如果不尽早出卖所有同伴,自己将面临被出卖的结局,毕竟,这是一个非零和博弈游戏,出卖行为是可以换取非常大的利益的……
在这里,我为何要刻薄地使用“出卖”二字?我们回顾一下房地产商们过去N年中所缔造出来的“攻守同盟”便可理解,我曾经因为“房地产行业是否存在暴利”及“房地产是否应该公开”的问题在频道与反方争得面红耳赤,我从来就认定企业存在着的现象(至于在当前中它是否有存在的合理性,可以阅读笔者的《解读08房地产市场》中的相关描述),而当时几乎所有的开发商都是众口一辞地否认暴利的存在,更有甚者,潘先生羞答答地把成本比喻为自家老婆的奶子,充分论证了成本不可示人是理所当然的,当然,其中也有万科的声音……如今的,则践踏了自己曾经参与的“同盟”,跳出来用实际行动来证明了暴利的存在,它不仅想证明自己存在暴利,也试图揭发所有同伴的暴利,所以,我说他的行为是“出卖”……
通过出卖同伴,万科真的能够获得个体的最大利益吗?理论上说它能够获得,但在实践中,也许它最终是打错了算盘,因为在所有的实践中,“囚徒困境”式的博弈必须是在一个信息极不对称的封闭环境中产生结果,所有囚徒式的自身恐惧与“理性决策”都是被相互隔绝的,而且这种博弈是不可被重复的(Douglas.Hofstadter创建),而当前的市场环境已经被不止一次重演过了(海南、05全国、08深圳),这种重复博弈最终将令所有参与者脱离困境,“囚徒困境”至此被彻底打破……
另外,最关键的一条是,在这场博弈中,政府也参与其中了,他直接参与的环节在于源头,即土地的供应(租借),这将加速打破“囚徒困境”,因为与所有参与博弈者有着本质不同的是,政府是整个游戏的设计者,是囚禁规则的设计者,也是盖牢房、拆牢房的人,你很难想象一个有着政府参与其中的“囚徒困境”可以被称之为真正意义上的“困境”,再回头看万科,在所有被他出卖的所谓同伴中,正有政府的身影……我这么说也许是不严谨的,毕竟这不是一个理想状态下的“囚徒困境”,囚徒之间并没有相互隔绝,信息最起码在业内并非极度不对称,万科是否背负着某种使命,至今还不得而知……
最后,需求方同样面临“囚徒困境”,从的“不买房运动”到“万人大团购”中便可管窥一二……
我认为,房地产商乃至房地产市场若想最终走出“囚徒困境”,只有两种可能,一是前文提到的那位最为尊贵的囚徒如何作为,囚禁自己还是大赦天下,二是所有囚徒在重复博弈的过程中明智地选择停止博弈、创建合作,在过去的几年里,他们曾经做到过,如今,也许又到了这样做的时候了,他们需要的仅仅是集体智慧,而那些已经被出卖者窃走的蛋糕,恐怕也只能暂时性地延续出卖者的生命,却最终导致其今后连做囚徒的资格也不会有了……只为两个字,“信任”!
而在此之后,也许“囚徒困境”将演变成另一种新的模型,我姑且称之为“重复博弈结果下的囚徒报复”……
囚徒困境军备竞赛
在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)。两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备。似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”(例如会对经济造成损坏等)。这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平。
囚徒困境关税战
两个国家,在关税上可以有以两个选择:
提高关税,以保护自己的商品。(背叛)
与对方达成关税协定,降低关税以利各自商品流通。(合作)
当一国因某些因素不遵守关税协定,独自提高关税(背叛),另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大。)
囚徒困境广告战
商业活动中亦会出现各种囚徒困境例子。以为例。
两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告,收入增加很少但成本增加。但若不提高广告质量,生意又会被对方夺走。
此二公司可以有二选择:
互相达成协议,减少广告的开支。(合作)
增加广告开支,设法提升广告的质量,压倒对方。(背叛)
若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。
囚徒困境自行车赛
自行车赛事的比赛策略也是一种博弈,而其结果可用囚徒困境的研究成果解释。例如每年都举办的环法自由车赛中有以下情况:选手们在到终点前的路程常以大队伍(英文:Peloton)方式前进,他们采取这策略是为了令自己不至于太落后,又出力适中。而最前方的选手在迎风时是最费力的,所以选择在前方是最差的策略。通常会发生这样的情况,大家起先都不愿意向前(共同背叛),这使得全体速度很慢,而后通常会有二或多位选手骑到前面,然后一段时间内互相交换最前方位置,以分担风的阻力(共同合作),使得全体的速度有所提升,而这时如果前方的其中一人试图一直保持前方位置(背叛),其他选手以及大队伍就会赶上(共同背叛)。而通常的情况是,在最前面次数最多的选手(合作)通常会到最后被落后的选手赶上(背叛),因为后面的选手骑在前面选手的冲流之中,比较不费力。
囚徒困境相关事件
囚徒困境异想
(William Poundstone)在他的著作中,以一新西兰的例子来说明囚徒困境。在新西兰,报亭既无管理员也不上锁,买报纸的人自行放下钱后拿走报纸。当然某些人可能取走报纸却不付钱(背叛),但由于大家认识到如果每个人都偷窃报纸(共同背叛)会造成以后不方便的有害结果,这种情形很少发生。这例子特别之处是并没有被任何其他因素影响而能脱离囚徒困境。并没有任何人特别去注意报亭,人们守规则是为了避免共同背叛带来的恶果。这种避免囚徒困境的大家共同的推理或想法被称为“异想(magical thinking)”。[3]
囚徒困境认罪减刑
囚徒困境的结论是许多国家中认罪减刑(英文:plea bargain)被禁止的原因之一。囚徒困境带来的结论是:如果有二个嫌疑人,其中一人犯罪而另外一人是无辜的,犯罪者会为了减刑坦白一切甚至冤枉清白者(单独背叛)。最糟糕的情况是,如果他们二人都被判入狱,坦白的犯罪者刑期少,坚持无罪的冤枉者刑期反而更多。
囚徒困境公用品悲剧
现实的博弈参与者不只一方,会有多方参与的囚徒困境。加勒特·詹姆斯·哈丁(Garrett James Hardin)的公用品悲剧就是一例:“公用品悲剧是指凡是属于最多数人的常常是最少受人照顾的事物”,例如渔业,公海中的鱼是属于公共的,而在本身不滥捕其他人也滥捕的思想下,渔民会没有节制的大捞特捞,结果海洋生态破坏,渔民的生计也受影响(共同背叛的结果)。但是,多方囚徒困境的提法有待商榷,因为其总是可以被分解为一组组经典的二方囚徒困境。就是说只有二方的囚徒困境,没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。
囚徒困境重复困境
囚徒困境简介
罗伯特·阿克塞尔罗德在其著作《》中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)。在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面:、最初的对抗、宽恕的能力等等。
合作的进化
阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用。他用这个博弈来说明,通过,一种利他行为的机制可能从最初纯粹的自私机制进化而来。
最佳确定性策略被认为是“以牙还牙”,这是阿纳托尔·拉波波特(Anatol Rapoport)开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的,只包含了四行,并且赢得了比赛。这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略。更好些的策略是“宽恕地”。当你的对手背叛,在下一回合中你无论如何要以小概率(大约是1%~5%)时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了。
囚徒困境成功条件
通过分析高分策略,阿克塞尔罗德指定了策略获得成功的几个必要条件。
最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。
但是,洛德主张,成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜。
成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,最大化了得分点数。
最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(“友善”的策略必然不嫉妒,也就是说“友善”的策略永远无法得到高于对手的分数)。
因此,阿克塞尔罗德得到一种给人以印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易。
囚徒困境竞赛模型
重新考虑经典的囚徒困境一节中给定的军备竞赛模型:结论是,只是理性策略增进了军事力量,似乎两个国家都宁可花费其GDP在枪炮而不是黄油上。有趣的是,企图说明对抗国家实际上以这种方式(在“重复囚徒困境假定”下的不同时期,军费支出在“高”和“低”之间反复)竞赛的尝试,却经常表明假定的军备竞赛并没有如预想的那样出现。(例如希腊人和土耳其人的军费支出,看来并不像遵循“”的重复囚徒困境式的军备竞赛,却更可能是被其国内的政策所驱使。)这可能是一次性博弈和重复性博弈中的理性行为不同的例子。
对一次性囚徒困境博弈来说,最佳(点数最大化的)策略是简单地背叛;正如前面解释的,无论对手的行动可能是什么,这都是真实的。但是,在重复的囚徒困境博弈中,最佳策略依赖于可能的对手的策略,和他们怎样对背叛和合作作出反应。例如,考虑这样一个人群,那里每个人每次都背叛,除了一个人是遵循以牙还牙策略。这个人处于一种轻微的不利地位,因为第一回合的损失。在这样的人群中,对这个人来说最佳策略就是每次都背叛。在一个有一定的百分比的总背叛者而剩下的则是者的人群中,对个人来说的最佳策略依赖于这个百分比和博弈的长度。
囚徒困境最佳策略
:如果对抗策略的统计分布能被确定(例如,50%以牙还牙,50%一直合作),就能从数学上获得最佳的相对策略[4]。
已经有了人群的,在这里低分个人消失了,高分个人一再被生产出来(一种获得最佳策略的天才算法)。决赛人群中的算法合成通常依赖于初赛人群中的算法合成。
尽管以牙还牙始终被认为是最可靠的基本策略,但是在重复囚徒困境的20周年纪念赛中,来英国大学的一个小组(由尼古拉斯·詹宁斯(Nicholas Jennings)[1]领导,包括了拉蒂普·达什(Rajdeep Dash)、帕里·拉姆琼(Sarvapali Ramchurn)、亚历克斯·罗杰斯(Alex Rogers)斯和皮鲁克里士南·维特(Perukrishnen Vytelingum))介绍了一个新的策略,这个策略证明了它比以牙还牙更成功。这个策略依赖于程序之间的合作,为单一程序中获得了最高的点数。提交了60个程序参与竞赛,这些程序的开头被设计成通过一组5到10个的动作去彼此识别。一旦这些识别被作出,一个程序将总是合作,其他程序则总是背叛,保证背叛者得到最大的点数。如果程序识别出它在操作一个非南安普敦参与者,这程序将持续地背叛,企图去最小化竞争程序的得分。结果[5],这个策略以获得前3位结束了竞赛,也得到了大量接近底部的位置。虽然这个策略显著地证明了比有效,但是这是因为利用了下述事实:在这个特殊的竞赛中,多重通道是被允许的。在一方只能控制单一参与者的竞赛中,以牙还牙确实是更好的策略。
如果重复囚徒困境将被精确地重复N次,已知N是一个常数,那么会产生另一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛,既然你的对手将没有机会惩罚你。因此,你们都将在最后的回合背叛。这时,你可以在倒数第二回合中背叛,既然最后一回无论你做什么,你的对手都将背叛。依此类推。为了合作以保持请求,这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成随机的。对未来的预期必须是无法确定的长度。
另一个单独的案例是“永不停止”的囚徒困境。这个博弈被重复很多次,而且你的分数是一个平均数(当然是用计算机计算的)。
囚徒困境博弈是某些人类合作和信任理论的基础。假定囚徒困境能够模拟需要信任的两人之间的交流,群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟。这从而引起了许许多多学者经久不衰的兴趣。1975年,格罗夫曼(Grofman)和普尔(Pool)估计,致力于这方面研究的,数量超过2000篇。
囚徒困境心理博弈
当博弈参与者能学会估计其他参与者背叛的可能性,他们自身的行为就为他们关于其他人的经验所影响。简单的统计显示,总体上,缺乏经验的参与者与其他参与者的互动,或者是典型的好,或者是典型的坏。如果他们在这些经验的基础上行动,(通过更多的背叛或合作,否则)他们可能在未来的交易中受损。随着经验逐渐丰富,他们获得了对背叛可能性的更真实的印象,变得更成功地参与博弈。不成
熟的参与者经历的早期交易对他们未来参与的影响,可能比这些交易对成熟的参与者的影响要大得多。这个原理部分地解释了,为什么年轻人的成长经验这么具有影响力,以及为什么他们特别容易被欺负,有时他们本身最后也成为欺凌弱小者。
群体中背叛的可能性,可以被合作的经验所削弱[6],因为先前的博弈建立了信任。因此自我牺牲行为可以,例如,加强团体的道德品质。如果团体很小,积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈。这与相似的困境有关:鼓励那些你将援助的人,从可能使他们处于危险的境地的行为中得到满足。这类方法主要在、群选择、血缘选择和道德哲学的研究中涉及。
囚徒困境相关博弈
囚徒困境封闭交易
霍夫施塔特2曾提出,像囚徒困境一类的问题,若以简单博弈的形式来说明,人们会较容易理解。例如他以“封闭袋子交易”的简单博弈来说明此论题:
两人面对面互相交换封闭的袋子,共同了解其中一方放钱,另一方放商品。双方可以诚实的依照承诺,把东西放到袋子里交换;又或者交空袋子给对方,选择背叛。
在这场博弈中,由于背叛可获得巨大利益,必然有多人选择背叛。这意味着理性的商人不会进行这种交易,因而“封闭袋子交易”将由于逆向选择而失去市场。
囚徒困境是敌是友
“是敌是友?”是一个竞赛表演节目,从2002年到2005年在美国竞赛表演广播网(Game Show Network)放映。这是一个用真人进行的囚徒困境博弈例子,不过情景是人造的。这个竞赛表演有三对人参与竞争。当每对人被淘汰时,他们做一个囚徒困境博弈,决定如何分他们的奖品。如果他们都合作(“朋友”),他们的奖品就被平分。如果一个合作而另一个背叛(“敌人”),背叛者得到所有的奖品,合作者什么都得不到。如果都背叛,那么两人都一无所获。注意,这个支付矩阵与前述标准的支付矩阵不同,因为发生“都背叛”的情形和“我合作而对手背叛”的情形,其损失是一样的。和标准囚徒困境的稳定均衡相比,“都背叛”是不稳固的均衡(weak equilibrium)。如果你知道你的对手将成为“敌人”,这时你的选择无法影响你的奖品。在某种意义上,“是敌是友”拥有一个介于“囚徒困境”和“小鸡”之间的支付模型。
这个支付矩阵是:
如果参与者都合作,每人得到 +1。
如果都背叛,每人得到 0。
如果甲合作而乙背叛,甲得到0而乙得到 +2。
是敌是友对于想对囚徒困境作现实分析的人将是有用的。注意到,参与者只能进行一次,所以所有涉及重复进行博弈的观点都不适用,“”策略也无法发展出来。
在是敌是友中,每个参赛者被允许做一个声明,使另一半友在双方秘密决定合作或背叛之前,确信他的友善。可能“打破制度”的方法将是一个参与者告诉他的对手:“我会选择做敌人。如果你相信我后来会和你分奖品的话,就选择做朋友。否则,如果你选择做敌人,我们都会空手而回。”一个更贪婪的版本将是:“我将选择做敌人。我会给你百分之X,剩下的百分之(100-X)归我。所以,要或不要,要么我们都得到一些,要么我们都一无所获。”(在最后通牒博弈中时。)如今,奸计就是去尽量减少那个百分之X,并保持另一个竞争者仍然选择做朋友。基本上,这个参与者必须知道这个界限,在这里他的对手从看到他一无所获中得到的效用,要超过他从肯定能赢得的金钱中得到的效用,如果他顺利的话。
在竞赛中这个方法从未被试验过;可能是因为裁判们不会允许,而且即使允许,不平等厌恶也会由于这个规则的使用而导致较低的期望收益。(最后通牒博弈中尝试了这个方法,结果导致对高而不平等的出价的拒绝——在一些案例中,相当于两周的工资优先于两个参与者一无所获被决绝。)
囚徒困境注释
囚徒困境注解1
获知其他人策略不被考虑的理由是:即使有人能获知他人策略,“背叛”仍然是最佳的策略,无论他获知对方选择“合作”或“背叛”都是如此。如果人的自私不改变的话,囚徒困境还是存在,永远达不到团体最大利益。所以知不知他人策略对囚徒困境的存在几乎没有影响。
囚徒困境注解2
道格拉斯·霍夫斯塔特 (1985年). 元逻辑命题:追问思维和模式的本质. 班坦·戴尔出版集团. ISBN 0-46-. - 参阅 第29章 囚徒困境计算机竞赛和合作的进化。
囚徒困境注释3
除了解释没有小偷小摸,异想还用于解释志愿投票之类的事情(在非投票者被认为是搭便车者的地方)。可能,这还可以用来解释贡献:文本在如下的假定下被添加——如果没人贡献,相似的人也将不会去贡献(即从效果到缘由的争论)。或者,解释要依赖于可预料的未来行动(不需要神奇的联系)。为未来的交流作模型需要增加有限的维,就像在重复的囚徒困境一节中给定的。
囚徒困境注释4
例如参看2003年的研究“贝叶斯;假说的”:关于概念的讨论,和是否能运用于真实的经济或统计情形(来自)。
囚徒困境注释5
2004年度囚徒困境锦标赛结果显示高波·拉姆琼的南安普敦大学策略位于前3名,尽管与GRIM策略相比,有较少的胜利和更多的失败。(注意,在囚徒困境锦标赛中,博弈的目标不是“赢得”比赛——通过经常背叛,这很容易就能达到。)同样需要指出的是,即使在软件策略(由的小组开发)之间没有隐含结论,也不总是任何既定竞赛的绝对赢家。说得更确切些,它在一系列竞赛中的最终结果胜过它的对手。(在任何项目中,给定的策略能稍微比以牙还牙更适应竞赛,但是以牙还牙更稳固)。这同样适用于附加宽恕变量的以牙还牙和其他最佳策略:在任何一天,它们可能无法“赢得”一个对抗策略的特别组合。
囚徒困境注释6
这个争论——关于出于信任的合作的发展——出自《群众的智慧》,此书表明,长久的资本主义能够围绕教友派信徒的核心形成,这些教友派信徒们总是体面地同他们的生意合伙人交易(而不是背叛和食言——一种已经阻碍了早先的、非强制履行的长期境外合同的现象)。这表明,和可靠的商人作交易使合作拟子(meme)传播给其他交易者,这些交易者又把它传播到更远的地方,直到高水平的合作在一般商业活动中成为有利可图的策略。
囚徒困境核心理念
全输,合作双赢,怀疑或不信任导致失败。
囚徒困境应用
囚徒困境要诀
注重合作,力求双赢;注重策略选择,善于换位思考。
囚徒困境领域
政治、经济、军事、企业经营、社会生活、组织管理。
范如国 韩民春.博弈论.武汉:武汉大学出版社,2004
企业信用信息}

我要回帖

更多关于 纳什均衡理论 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信