求解释一下博弈论论文中的最小最大法

点击联系发帖人 时间：2011-06-27 05:31

博弈论论文

 下载
 收藏
该文档贡献者很忙，什么也没留下。
 下载此文档
正在努力加载中...
中科大管理经济学课件第十一章博弈论和策略行为
下载积分：700
内容提示：道客巴巴文档,中科大管理经济学课件第十一章博弈论和策略行为,值得下载、打印、浏览、分享或收藏！
文档格式：PPT|
浏览次数：1|
上传日期： 07:56:47|
文档星级：
该用户还上传了这些文档
中科大管理经济学课件第十一章博弈论和策略行为.PPT
官方公共微信§6 博弈决策概要博弈决策指以博弈理论为指导进行决策，其主要特点是决策时要考虑竞争对手的竞争策略。阐述博弈理论的学科称博弈论（ game theory ）博弈论的思路在古诺，（Cournot,Antoine Augustin,）的双头垄断模型中最早提出，冯?诺伊曼（John von Neumann,1903-
1957）和摩根斯坦恩（Oskar Margenstern, ）在 1944 年出版了《博弈论与经济行为》（Theory of Games and Economic Behavior）一书，最早提出了博弈论的概念。现代博弈论则是由纳什（Nash, John F.）海萨尼、（Harsany, John C.）泽尔腾、（Selten, Reinhard）、夏普利（Sharpley, Lloyd S.）等人发展起来的，1994 年的诺贝尔经济学奖就授予了前三位经济学家。现在，博弈论已经成为现代经济学的基本分析工具之一，并且应用到了政治、经济、军事、社会、自然科学等各个领域。6.1 博弈论基本概念博弈是一种对抗性竞争行为，如下棋、打牌、比赛，等等，是我们政治、军事、经济和生活中常见的一种行为。1 博弈现象例 1： “齐王赛马” 春秋战国时期，齐王和田忌各有“上、中、下”三等级赛马，齐王的马比田忌的同等级马要略胜一筹，但齐王的“中、下”级马跑不过田忌的“上、中”级马。问比赛双方采取何种策略为宜？例 2： “价格联盟” 2000 年 6 月，国内九大彩电企业结盟深圳，约定共同提高彩电零售价格。之后，又有空调价格联盟、民航机票价格联盟、电脑价格联盟，证券佣金价格联盟等等。但这些 “联盟” 均先后解体。价格联盟能提升相关企业利润，为什么联盟策略不能持续？例 3： “搭便车” 中国股市“非流通股股改”过程中，大小股东对“对价”往往不能达成一致意见，影响股改进程，使自身利益受损。问大小股东的正确策略是什么？注： “搭便车现象”是奥尔森教授（1965）在《集体行动的逻辑：公共利益和团体理论》一书中提出的，是指在集体行动中，个人支付成本获得的收益被集体中的其他成员免费分享的现象。由于个人支付全部成本而只享受较少的收益分额因而集体中的理性个人没有动力去提供公共物品。12 博弈概念1）定义博弈即一些个人或组织，在一定环境条件下，按一定规则，同时或先后，一次或多次，从各自允许选择的行为或策略中进行选择并加以实施，各自取得相应结果的过程。例“囚徒困境” A、B 二犯罪嫌疑人因在超市盗窃被抓现行，法院调查确信 A、B 二人系合伙累犯，但无原来犯罪的定案证据不能定罪。二嫌犯是惯犯，知道这个法律规定，故只承认被抓现行的这次盗窃行为，这个盗窃罪依法只能判 2 年。为使二犯受到应有的惩罚，检方当二人面说：坦白从宽，抗拒从严！如坦白交待所有罪行，从宽判 1 年；如抗拒不交待，被另一人坦白检举，将重判 10 年；如二人都坦白将各判 6 年。然后将二人分开关押审讯。问二嫌疑人的合理选择是什么？ “囚徒困境”中二囚犯相互间构成一种博弈，即坦白还是抵赖的选择问题。2）博弈的要素构建一个博弈，需要以下基本要素：（1）局中人（参与者）（players）：每局博弈至少有两个参与者，如二囚犯；（2）行动集（action set）：规定每个参与者可以采取的行动的集合，如坦白，抵赖；（3）时序（playing sequence）：游戏规则中规定的每个参与者决策的先后次序。局中人共享信息同时行动称静态博弈；局中人一方在了解对方行动后再行动称动态博弈。例中二囚徒分开，不知对方选择，可认为是同时行动；（4）策略（strategies）：策略是局中人在一局博弈中的一套完整的行动计划。策略与行动不同，策略包括信息。比如囚徒困境，每个局中人的行动只有两种：坦白，抵赖。但策略就包括：（坦白，抵赖）（抵赖，抵赖）（抵赖，坦白）（坦白，坦白）、、、四种。尽管最后的均衡是（坦白，坦白），但策略有四种。策略告诉局中人，在每一种可预见的情况下选择什么行动。如：在预见“一方宽判 1 年，对方判 10 年”的情况下，局中人选择的行动是：坦白（一方），抵赖（对方）。（5）得益（payoffs）：局中人在不同情况下所得到的效用。如局中人二囚犯 A、 B 在选择“坦白、抵赖”行动情况下，A、B 的得益是（-1 ，-10）。（6）信息（information）：局中人决策所依据的信息。如坦白和抵赖所导致的各种刑期。信息分为完全信息和不完全信息。在完全信息中，局中人在决策时知道在此之前的全部信息，并且局中人 A 知道局中人 B 知道全部信息，并且局中人 A 知道局中人 B 知道局中人 A 知道全部信息，如2此以至无穷。比如下棋。在不完全信息中，局中人不知道与博弈有关的全部信息。比如猜“石头――剪刀 ――布”的游戏。（7）均衡（equilibria）：均衡是所有局中人选取的最佳策略所组成的策略组合。如（坦白、坦白）。在上述要素中，局中人、行动集、时序、策略、得益和信息规定了一局博弈的游戏规则。3）博弈论研究内容参见图 6-1 博弈论内容体系图图 6-1 博弈论内容体系图33 博弈决策思想与经济学决策思想的区别博弈决策与传统经济学决策不同，其主要区别如表 6-1 表 6-1 博弈决策思想与经济学决策思想的主要区别表 6-1博弈决策行动、策略、得益与博弈对手的可能策略。基于个体“理性”的行为主体利益最大化，寻求行为主体的最佳策略经济学决策如收益率、价格、成本、等等基于个体“理性”的行为主体利益最大化，寻求行为主体的满意方案比较各方案的综合经济效益主要考察环境变量，考察对象具相对客观稳定性。适用于面对客观环境问题的分析与解释。自己决策能力决策约束条件决策目标决策思路主要特征适用特点成败关键针对竞争对手策略的最佳策略主要考察竞争对手策略及相互策略组合，考察对象具主观随机性。适用于面向主观选择的竞争性、对抗性问题的分析与解释。自己决策能力 PK 对手决策能力6.2 博弈矩阵1 博弈矩阵概念用以描述博弈相关的局中人，策略和得益等决策属性的表格称博弈得益矩阵，简称博弈矩阵。例如： “囚徒困境”中的博弈矩阵可表示如表（6-2）。借助博弈矩阵可以方便地进行博弈决策分析。表 6-2 囚徒 A 坦白抵赖囚徒 B 坦白 -6，-6 -10，-1 抵赖 -1，-10 -2，-26.3 有鞍点博弈决策有鞍点博弈决策是二人有限零和博弈决策中，不论双方当初采取什么策略，当博弈双方经过充分研究，不断改进博弈策略之后，双方找到了一个都不能再改善的策略汇合点，该点称鞍点，鞍点所反映的双方策略都是最优策略。二人有限零和博弈是指这样的一类博弈问题：参加博弈的“局中人”只有二个，每个局中人都备有有限个可供选择的策略，而且在任一次博弈对局中，一方所得为另一方所失，局中人总的得失和为“零” 。4二人有限零和博弈，可一般地表达为表（6-3）。甲方的支付表可用矩阵表示。g11 g21 ┆ gi1g12 g22 ┆ gi2┄ g1j ┄ g2j ┆ ┄ gij ┆ ┄ gmj┄ g1n ┄ g2n ┄ gin ┆ ┄ gmn表 6-3 甲方得失值 β α1 2乙方策略1β2┄ βj┄ βng11 g21 ┆ gi1g12 g22 ┆ gi2┄ g1j ┄ g2j ┆ ┄ gij ┆ ┄ gmj┄ g1n ┄ g2n ┄ gin ┆ ┄ gmn┆ ┆ gm1 gm2甲方策略α┆ αi ┆ αm简记为 G =（g ij）┆ ┆ gm1 gm2其最优策略的一般解法是“线性规划法” ，当存在鞍点时可用“小中求大法”求解最优策略。 1 二人有限零和博弈（有鞍点时） “小中求大法”确定鞍点步骤：对甲方的支付矩阵而言，先求甲方矩阵各行最小值；再找出其中的最大值；方法原理是假设甲方在各策略最不利的情况下，选一个相对有利的策略，该策略对应的收益是最起码的收益；对乙方而言，甲乙利益是相互冲突的，所以，甲方最小得益就是乙方最大得益，可用“大中求小法”找出乙方在不利情况下的相对有利策略，如果行 max（min）= 列 min（max）= K 则 K 就是“鞍点” ，K 是甲方的收益，也是乙的损失。双方对应的策略称为最优纯策略的解。具体方法原理与求甲方最优策略一样：先求出各列最大值（因为用的甲方支付表，甲方最大就是乙方最小），再选其中的最小值（甲方最小就是乙最大），该值对应的乙方策略就是乙方的最优策略。表 6-4 乙方策略例如：甲方支付表 β 设甲方支付矩阵如表 (6-4) β 2 β 3 β 4 min max 1 甲方最优策略是 α 2 ，乙方最优策略是β 2 ，双方博弈的值是 3，博弈值对应的点就是鞍点。在这个博弈中，甲只要坚持甲 α 方 α1 213 16 -3 15 16124 8 29 10 29-9 10 0 6 10-9 3 -3 -6 3策 α 3 α 2 策略，收益最少是 3 个单位。略 α4 乙只有坚持β 2 策略，损失才不 max 会超过 3。 min XX3-1 -6 3 352 二人有限零和博弈（无鞍点时）当博弈无鞍点时，说明双方都无确定的策略，是一种你变我变的状态，如齐王赛马，当齐王知道田忌的策略后，就会采取将出场马次序打乱的策略。这种没有确定状态的博弈问题称为“二人零和混合策略博弈” 。这个问题可通过求最优策略的概率值解决。如齐王赛马，计算可知双方的策略是将马的 6 个出场顺序全部列出，然后任选一个出场顺序进行比赛。这样的策略，齐王获胜。无鞍点决策与有鞍点决策的最大不同是：有鞍点可以事先告诉对方自己的策略选择，结果不变。无鞍点决策对策略选择要相互保密，否则不保密的一方必输。如田忌若先行探测到齐王马的出场顺序，采取针对性策略就能确保获胜。6.4 二人有限零和博弈决策实务解析例：假设有二家生产彩电的企业，在某地进行市场销售竞争。甲厂产品设计了三种不同质量等级的 A1，A2，A3，乙厂产品设计了四种质量等级 B1，B2，B3，B4，市场预测这种产品销售总量可达 20000 台。分析预测甲方在与乙厂竞争中，各等级产品销量如表(6-5)。试求甲乙二厂各自的最优市场销售策略，即各厂应向市场提供哪种质量等级的产品？表 6-5 乙厂策略解：运用“最小最大法” ，可求得鞍点是 12000 台，即甲厂的甲方支付表 B1 B2 B3 B4 min max 策略是生产 A3 质量等级产品，销 1.4 0.5 1.0 1.6 0.5 A1 量可达 12000 台。乙厂应生产 B3 甲 0.6 0.8 1.1 1.2 0.6 质量等级产品，销售量可达厂 A2 =8000 台。策 A3 略 max min XX1.5 1.51.4 5 1.41.2 1.2 1.21.3 1.61.21.26.5 “纳什均衡”基本原理实务解析纳什均衡，又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰?纳什命名，分类属于完全信息静态博弈决策。纳什均衡以“理性人”为分析依据，且假设局中人是“利己主义者” ，追求“自身利益最大化” 。61“纳什均衡”定义在一个博弈过程中，无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作支配性策略。如果两个博弈的当事人的策略组合分别构成各自的支配性策略，那么这个组合就被定义为纳什均衡。一个策略组合被称为纳什均衡，其内涵是每个博弈者的均衡策略都是为了达到自己期望收益的最大值，与此同时，其他所有博弈者也遵循这样的策略。纳什均衡就是在给定别人最优的情况下，自己最优选择达成的均衡。其通俗涵义是：先给定你的最优选择，我再选择能够使我最优的选择。2 均衡的确定在二人博弈中，可以采用画横线法来确定均衡。在给定一方的策略后，把自己的最优策略画上一条横线，如果在某一个框中，两个收益值都被画上横线的话，此框所表示的决策就是一个均衡。3“纳什均衡”基本原理模型与决策实务分析纳什均衡基本原理模型有多种，其中经典的有“囚徒困境”和“智猪博弈”等。例 1“囚徒困境” （prisoners＇dilemma）博弈决策模型1） “囚徒困境”模型构造与均衡求解 “囚徒困境”是阐述博弈理论的基本模型，模型已知博弈信息如前述，其得益矩阵如表 6-6 表。 “囚徒困境” 纳什均衡的囚徒 B 确定：表 6-6 给定 B 坦白，A 坦白得益为-6，抵赖得-10，A 的最优选坦白抵赖择是坦白得-6，在-6 下打横线；给定 B 抵赖，A 坦白得益囚徒坦白 -6，-6 -1，-10 为-1，抵赖为-2，A 的最优选 A 择是坦白得-1，在-1 下打横线；给定 A 坦白，B 坦白得益为-6，抵赖得-10，B 的最优选抵赖择是坦白得-6，在-6 下打横线； -10，-1 -2，-2 给定 A 抵赖，B 坦白得益为-1，抵赖得-2，B 的最优选择是坦白得-1，在-1 下打横线；即不论 A、B 作何选择，7A、B 的最优选择都是坦白。虽然 A、B 都知道所有信息，相互也清楚对方的情况，明知都抵赖是最好的结果，但从“理性”出发，行为人都是自私的，只会考虑自己的利益，所以还是应该选择坦白，这就是“纳什均衡”的理论指导意义。 2） “囚徒困境”引发的思考a. 个体理性与集体理性的矛盾――从个体利益出发的行为往往不能实现集体的最大利益； b. 个体理性自身的矛盾――从个体利益出发的行为最终也不一定能真正实现个体的最大利益，甚至是相当差的结果！ 3）观察与思考：彩电“价格联盟”为什么讯速瓦解？ 2000 年 6 月 9 日和 6 月 22 日，国内 9 家彩电企业在深圳和南京举行峰会，制定了彩电销售的最低限价，但市场反应平淡，一些彩电屡屡跌破所谓的最低价。9 家彩电企业的这种试图干预市场的行为没有达到预期效果。随后，北京国美电器商城各种品牌彩电再次大幅降价。熊猫主导产品 21 寸超平彩电首次以 1898 元出售比价格联盟最低限价低 690 元，而一台熊猫 21 英寸普通彩电只卖 950 元。在上海商务中心电器城各品牌 29 寸直平、超平彩电的实际售价都在 2500 元以下，均低于 2590 元的限价。在长沙，一些机型的降幅甚至超过 3500 元。受降价影响，在天津，出现了大规模抢购彩电的情况。业内人员称“价格联盟”只是一个掩耳盗铃、自欺欺人的玩意儿。国家计委负责人表示，这种价格联盟违反了国家 1999 年颁布的《制止价格垄断行为暂行规定》，规定明文禁止“经营者之间通过协议、决议或者协调等串通方式操纵市场价格，以及凭借市场优势地位牟取暴利、实行价格倾销和价格歧视” 。将组成巡查组，对市场进行监督检查。思考： 1. 彩电价格联盟解体的内在原因是什么？ 2. 有必要对类似的“价格联盟”实施行政干预吗？ “价格联盟”解体分析 “价格联盟”是一种典型的“囚徒困境”博弈，其最简单的形式如“双寡头削价竞争” 。设双寡头得益矩阵如表（6-7）：寡头 1 高价策略可能得益是（100，20）；低寡头 2 表（6-7）价策略可能得益是（150，70），低价策略优于高高价低价价策略，寡头 2 亦同。寡高 100 ， 100 20，150 由于双方都无法信任对方，都必须防备对方头价利用自己的信任谋取利益，博弈结果只能是都采 1 低 150，20 70，70 用低价策略，各得 70，各得 100 的结果最好无价法实现。需特别强调的是：即使双方都完全知道上述利害关系也无法改变这种结局，这就是“纳什均衡”的内涵。按“纳什均衡”理论，彩电价格联盟解体的原因在于联盟各方都是独立的经济实体，有追求自身个体利益的内在“理性”需求，其最优策略是选择低价占领市场获取8最大利益，各方都有这个要求，谁高价谁吃亏，故高价的“价格联盟”不能成立。国家计委的行政干预并不是“价格联盟”解体的真正原因，要使行政干预对“价格联盟” 发挥作用，国家主管部门只要确保联盟各方是独立的经济主体就行，制定合理的博弈规则，如“囚徒困境”中，检方关于坦白、抵赖各种情况下的刑期。例 2“智猪博弈” （boxed pigs）博弈决策模型“智猪博弈”是解释“搭便车”行为具有合理性的一个经典模型。 1） “智猪博弈”模型构造与均衡求解设有两头猪，大猪和小猪。猪圈的一头是食槽，另一头是按键。按键的成本（劳动）为 2。如大猪先到，吃 9 个单位，小猪吃 1 个单位；如小猪先到，吃 4 个单位，大猪吃 6 个单位；如同时到，大猪吃 7 个单位，小猪吃 3 个单位。设得益矩阵如表（6-8）均衡的结果是：（按，等待）。即大猪按键，小小猪猪等待，小猪“搭便车”是最好的策略。表 6-8 按键等待 2） “智猪博弈”模型引发的思考按 5，1 4，4 弱势个体自身理性的矛盾――为改变弱势地位键大而积极进取的理性选择，获益反不如消极等待的 “搭猪等 9，-1 0，0 便车”选择！待即弱势方愈是积极努力，强弱差距就越大，即相对意义上的强者更强，弱者更弱！（其原因是弱势方创造的财富大部份被强者占有！）社会经济生活中，弱势者 “搭便车”是合理的选择。如： a) 股改中的“对价”应由大股东与公司还价，小股东等待为宜； b) 股市投机炒作中，控盘操作应由庄家做，散户应跟风等待； c) 企业的大规模促销广告应由大企业做，小企业借势营销是上策； d) 村里的路应由富人投资修建，穷人的合理选择是不管。周四 3）观察与思考：TCL 王牌液晶电视的“智猪博弈”营销战略 2005 年 12 月 17 日，在南方都市报、新京报、CCTV、新浪网等权威媒体主办的 “2005 年度中国营销大奖”评选中， “TCL‘智猪博弈’力推王牌液晶电视”案例最终入选“年度中国十大营销事件” 。从 2004 年开始，中国彩电市场进入“转型期” ，TCL 作为全球彩电巨头，也面临液晶电视带来的新考验。面对转型期的市场，TCL 做出全面出击液晶的决定，立足于液晶电视研发、制造、营销等领域的综合优势的建立，全面参加全球液晶电视市场的角逐。与此同时，在国内液晶电视市场上，TCL 巧妙运用博弈论中“智猪博弈”的竞争策略，驱使中小品牌率先炒作市场，释放风险，选择合理时机迅速切入，以最小的代价建立了在液晶电视领域里的新霸主地位。在新技术产品的推广中，谁先杀进市场，谁就是“踩踏板”的角色。而“智猪博弈”的典型环境有一个特点，就是踩踏板的一方在争食中处于劣势。这早已不是新鲜9的商业智慧，因此面对即将兴起的液晶电视市场，等待几乎成为所有新来者的优先选择。 1 智赶小猪“踩踏板” 2004 年 5 月 18 日，TCL 在广州举行“开启中国大屏幕液晶电视新时代”的发布会，宣布将全面介入国内大屏幕液晶电视市场。两个月后， TCL 在技术领域挥出重拳，与国际著名芯片厂商 Genesis 成立联合实验室，同时发布一款高端彩电专用的 DDHD 控制芯片。在销售终端，TCL 也发布了许多关于液晶电视的宣传资料。既然大猪已经踩动了踏板，小猪们也纷纷迅速做出反应，二三线品牌厂商投入巨资进行市场推广，开发大量新机型，并开始囤积面板等关键器件，等着抢食。 2 蓄积力量待“落食” TCL 的一些被认为是“踩踏板”的举措只是佯动，实际在进行技术、产业链和市场三大布局。在整个 2004 年剩余的时间里，TCL 的举动显得非常低调，没有与二三线品牌一起积极投身于撬动和启蒙市场，注意力都集中在这次全球布局中，投入的资金也大多集中在提高液晶研发和产能实力上，专注于液晶电视技术和产能实力的储备。 TCL 惠州液晶电视生产基地目前是全国最大的液晶电视生产基地，年产量超过 130 万台；无锡工业园的建成更令 TCL 在实现全球液晶产业布局上底气十足。在 TCL 的产业版图上，中国、泰国、波兰和墨西哥四大生产基地将成为 TCL 液晶产业链的中轴。TCL 的计划是到 2006 年拥有 600 万台的液晶电视年产能，这一目标在今天事实上已接近实现。在国内市场，TCL 的真实策略是：让更多的二三线品牌去炒作市场，充分释放市场风险，让小猪们去踩踏板。 3 大猪吃食小猪惨在二三线品牌的热炒之下，2004 年的中国液晶电视市场一片热火朝天。但小猪踩踏板成本高昂，权威的中怡康时代调查公司提供的数据表明，整个中国液晶电视市场 2004 年的销量只有不到 20 万台。如此狭窄的市场里集中了 20 多个国内外品牌的数百款产品，也就完全无法为任何一个二三线品牌提供稳定的利润来源。个别品牌仅样机损失就高达上亿元。更惨的是，为了抢占市场份额，二三线品牌普遍广泛囤积液晶面板等关键元器件。而随着液晶技术的演进，液晶面板的采购价格却在飞速下降，部分二线厂商陷入“投入越多，亏损越大”的困境。随消费者逐渐认可液晶电视，市场风险迅速释放， 2005 年 3 月开始，国内液晶电视市场开始出现迅猛增长势头， TCL 利用其研发产能实力夺取了 13.1%的市场份额，抢了个盆满钵满。二三线品牌厂商由于付出了惨重的踩踏板成本，后劲明显不足，逐渐出现了明显的分化。一部分品牌退出了液晶市场，另一部分也重新回到了边缘化的市场位置，靠大猪余下的一点残食勉强维持。思考： 1) TCL 成功启示是什么？ 2) 二三线厂商失败教训有哪些？分析小结：101TCL 自 2004 年 5 月起的“发布会”“建立芯片实验室” 、，以至于“终端促销” 等一系列举动，造足“踩踏板”的假象。当“小猪们”踌躇满志的开始在液晶市场掘金时，TCL 却“舍末逐本” ，抓住研发能力和产能实力两大基点，悄悄完成了全球化的产业布局，蓄势待发。当 “小猪们” 踩动踏板后， TCL 利用其强大的研发产能实力，饱餐落食，奠定胜局！实现了大猪搭小猪便车的战略意图。案例启示有： a. 大猪必须要有大猪的力量，即抓住研发产能这个力量基础。否则食物来了会被小猪拱到一边去；b. 踩踏板是大猪的必然选择，如能诱使小猪一起踩，甚或鼓动小猪独踩则更好；“智猪博弈”的均衡策略是大猪踩踏板，小猪等待，但如果大猪能成功地诱使小猪踩踏板则大猪获食更多，这被称为“新智猪博弈” ；c. 小猪的优选策略是后发制人，即等待为上策，宁吃不上，也不要抢着去踩踏板，因为大猪更珍惜生存机会（即俗语说的“光脚的不怕穿鞋的” ，富人比穷人更惜命）。只要和大猪处在生死与共的环境中，大猪最终一定会去踩踏板。小猪一定要将“搭便车”的战略思想坚持到底。 d. 新技术产品更新快，总体趋势是降价，应以技术储备为主，不宜进行大量的物资储备。二三线厂商主要是在这个问题上付出了太高的踩踏板成本。e. “搭便车”策略会造成资源闲置，降低经济运行效率，可通过改进博弈规则进行改进。4“纳什均衡”博弈模型的重要启示“囚徒困境”反映的理性矛盾降低了社会效益， “智猪博弈”导致的“搭便车” 策略选择不利于资源配置，改进办法是深化制度建设。一种制度安排，要发生效力，必须是一种纳什均衡。否则这种制度安排便不能成立。若想将决策选择导向期望的方向，就要加强决策属性的研究与改进。例如：在囚徒困境中，不管 B 的策略是坦白还是抵赖，A 的最优策略都是坦白；反之亦然。这种策略就叫优势策略（dominant strategy）。两个囚徒即使暗自订立“攻守同盟” ，但由于个体“理性”的作用，没有一个会相信对方的承诺是可信的。这叫 “不可置信承诺” 。所以双方最后的理性选择都是“坦白” 。实践中，黑社会对于供出同伙的人，往往采取“格杀”的惩罚。这样，囚徒困境的得益矩阵如表 6-9：这时，（抵赖，抵赖）就成了优势策略。囚徒 B 表 6-9 由于博弈决策属性的变化，决策选择也相应坦白抵赖的发生变化。囚坦 -∞，-∞ -∞，-10 徒白 A 抵 -10，-∞ -1，-1 赖11小结1．博弈论与古典经济学的区别在于，前者考虑行为人的相互影响。 2．博弈论现在得到了很快的发展，已经在经济、政治、社会、文化、自然科学等领域得到了广泛的应用。 3．一个完整的博弈要有局中人、行动集、时序、策略、支付、信息等要素来刻画，不同的博弈构建者可能对各种要素的不同组合感兴趣。 4．囚徒困境是最著名的一个博弈，它揭示了个体理性与集体理性的矛盾。要改变囚徒困境的结局，需要改变博弈的规则。 5．纳什均衡是描述博弈均衡的一个非常重要的概念，指的是一种相对稳定的状态，在局中人的策略组合下，没有人愿意单独改变自己的行动。一个博弈可能有多个纳什均衡。 6．优势策略是指无论对方采取什么行动，我都将采取的策略。比如囚徒困境中的“坦白” 。优势策略肯定构成纳什均衡，但纳什均衡不一定是优势策略。阅读材料：《纳什均衡》1950 年和 1951 年纳什的两篇关于非合作博弈论的重要论文，彻底改变了人们对竞争和市场的看法。他证明了非合作博弈及其均衡解，并证明了均衡解的存在性，即著名的纳什均衡。从而揭示了博弈均衡与经济均衡的内在联系。纳什的研究奠定了现代非合作博弈论的基石，后来的博弈论研究基本上都沿着这条主线展开的。然而，纳什天才的发现却遭到冯?诺依曼的断然否定，在此之前他还受到爱因斯坦的冷遇。但是骨子里挑战权威、藐视权威的本性，使纳什坚持了自己的观点，终成一代大师。要不是 30 多年的严重精神病折磨，恐怕他早已站在诺贝尔奖的领奖台上了，而且也绝不会与其他人分享这一殊荣。纳什是一个非常天才的数学家，他的主要贡献是 1950 至 1951 年在普林斯顿读博士学位时做出的。然而，他的天才发现―――非合作博弈的均衡，即“纳什均衡”并不是一帆风顺的。 1948 年纳什到普林斯顿大学读数学系的博士。那一年他还不到 20 岁。当时普林斯顿可谓人杰地灵，大师如云。爱因斯坦、冯?诺依曼、列夫谢茨(数学系主任)、阿尔伯特?塔克、阿伦佐?切奇、哈罗德?库恩、诺尔曼?斯蒂恩罗德、埃尔夫?福克斯??等全都在这里。博弈论主要是由冯?诺依曼()创所立的。他是一位出生于匈牙利的天才的数学家。他不仅创立了经济博弈论，而且发明了计算机。早在 20 世纪初，塞梅鲁(Zermelo)、鲍罗(Borel)和冯?诺伊曼已经开始研究博弈的准确的数学表达，直到 1939 年，冯 ? 诺依曼遇到经济学家奥斯卡 ? 摩根斯特恩 (Oskar Morgenstern)，并与其合作才使博弈论进入经济学的广阔领域。 1944 年他与奥斯卡?摩根斯特恩合著的巨作《博弈论与经济行为》出版，标志着现代系统博弈理论的的初步形成。尽管对具有博弈性质的问题的研究可以追溯到 19 世纪甚至更早。例如，1838 年古诺(Cournot)简单双寡头垄断博弈；1883 年伯特兰和121925 年艾奇沃奇思研究了两个寡头的产量与价格垄断；2000 多年前中国著名军事家孙武的后代孙膑利用博弈论方法帮助田忌赛马取胜等等都属于早期博弈论的萌芽，其特点是零星的，片断的研究，带有很大的偶然性，很不系统。冯?诺依曼和摩根斯特恩的《博弈论与经济行为》一书中提出的标准型、扩展型和合作型博弈模型解的概念和分析方法，奠定了这门学科的理论基础。合作型博弈在 20 世纪 50 年代达到了巅峰期。然而，诺依曼的博弈论的局限性也日益暴露出来，由于它过于抽象，使应用范围受到很大限制，在很长时间里，人们对博弈论的研究知之甚少，只是少数数学家的专利，所以，影响力很有限。正是在这个时候，非合作博弈―――“纳什均衡”应运而生了，它标志着博弈论的新时代的开始！纳什不是一个按部就班的学生，他经常旷课。据他的同学们回忆，他们根本想不起来曾经什么时候和纳什一起完完整整地上过一门必修课，但纳什争辩说，至少上过斯蒂恩罗德的代数拓扑学。斯蒂恩罗德恰恰是这门学科的创立者，可是，没上几次课，纳什就认定这门课不符合他的口味。于是，又走人了。然而，纳什毕竟是一位英才天纵的非凡人物，他广泛涉猎数学王国的每一个分支，如拓扑学、代数几何学、逻辑学、博弈论等等，深深地为之着迷。纳什经常显示出他与众不同的自信和自负，充满咄咄逼人的学术野心。1950 年整个夏天纳什都忙于应付紧张的考试，他的博弈论研究工作被迫中断，他感到这是莫大的浪费。殊不知这种暂时的“放弃” ，使原来模糊、杂乱和无绪的若干念头，在潜意识的持续思考下，逐步形成一条清晰的脉络，突然来了灵感！这一年的 10 月，他骤感才思潮涌，梦笔生花。其中一个最耀眼的亮点就是日后被称之为“纳什均衡”的非合作博弈均衡的概念。纳什的主要学术贡献体现在 1950 年和 1951 年的两篇论文之中(包括一篇博士论文)。1950 年他才把自己的研究成果写成题为“非合作博弈”的长篇博士论文，1950 年 11 月刊登在美国全国科学院每月公报上，立即引起轰动。说起来这全靠师兄戴维? 盖尔之功，就在遭到冯?诺依曼贬低几天之后，他遇到盖尔，告诉他自己已经将冯?诺依曼的“最小最大原理”(minimax solution)推到非合作博弈领域，找到了普遍化的方法和均衡点。盖尔听得很认真，他终于意识到纳什的思路比冯?诺伊曼的合作博弈的理论更能反映现实的情况，而对其严密优美的数学证明极为赞叹。盖尔建议他马上整理出来发表，以免被别人捷足先登。纳什这个初出茅庐的小子，根本不知道竞争的险恶，从未想过要这么做。结果还是盖尔充当了他的“经纪人” ，代为起草致科学院的短信，系主任列夫谢茨则亲自将文稿递交给科学院。纳什写的文章不多，就那么几篇，但已经足够了，因为都是精品中的精品。这一点也是值得我们深思的。纳什在上大学时就开始从事纯数学的博弈论研究， 1948 年进入普林斯顿大学后更是如鱼得水。20 岁出头已成为闻名世界的数学家。特别是在经济博弈论领域，他做出了划时代的贡献，是继冯?诺依曼之后最伟大的博弈论大师之一。他提出的著名的纳什均衡的概念在非合作博弈理论中起着核心的作用。后续的研究者对博弈论的贡献，都是建立在这一概念之上的。由于纳什均衡的提出和不断完善为博弈论广泛应用于经济学、管理学、社会学、政治学、军事科学等领域奠定了坚实的理论基础。131. 囚犯的两难处境――小故事中的大理论要了解纳什的贡献，首先要知道什么是非合作博弈问题。现在几乎所有的博弈论教科书上都会讲“囚犯的两难处境”的例子，每本书上的例子都大同小异。博弈论毕竟是数学，更确切地说是运筹学的一个分支，谈经论道自然少不了数学语言，外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题，所以不能不食人间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗和决策性质的问题中借用的术语，听上去有点玄奥，实际上却具有重要现实意义。博弈论大师看经济社会问题犹如棋局，常常寓深刻道理于游戏之中。所以，多从我们的日常生活中的凡人小事入手，以我们身边的故事做例子，娓娓道来，并不乏味。话说有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人，斯卡尔菲丝和那库尔斯，并从他们的住处搜出被害人家中丢失的财物。但是，他们矢口否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离，分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。检察官说， “由于你们的偷盗罪已有确凿的证据，所以可以判你们一年刑期。但是，我可以和你做个交易。如果你单独坦白杀人的罪行，我只判你三个月的监禁，但你的同伙要被判十年刑。如果你拒不坦白，而被同伙检举，那么你就将被判十年刑，他只判三个月的监禁。但是，如果你们两人都坦白交代，那么，你们都要被判 5 年刑。 ” 斯卡尔菲丝和那库尔斯该怎么办呢？他们面临着两难的选择――坦白或抵赖。显然最好的策略是双方都抵赖，结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以，按照亚当?斯密的理论，每一个人都是从利己的目的出发，他们选择坦白交代是最佳策略。因为坦白交代可以期望得到很短的监禁―――3 个月，但前提是同伙抵赖，显然要比自己抵赖要坐 10 年牢好。这种策略是损人利己的策略。不仅如此，坦白还有更多的好处。如果对方坦白了而自己抵赖了，那自己就得坐 10 年牢。太不划算了！因此，在这种情况下还是应该选择坦白交代，即使两人同时坦白，至多也只判 5 年，总比被判 10 年好吧。所以，两人合理的选择是坦白，原本对双方都有利的策略(抵赖)和结局(被判 1 年刑)就不会出现。这样两人都选择坦白的策略以及因此被判 5 年的结局被称为“纳什均衡” ，也叫非合作均衡。因为，每一方在选择策略时都没有“共谋”(串供)，他们只是选择对自己最有利的策略，而不考虑社会福利或任何其他对手的利益。也就是说，这种策略组合由所有局中人(也称当事人、参与者) 的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。 “囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突，各人追求利己行为而导致的最终结局是一个“纳什均衡” ，也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己，这样他们必然要服长的刑期。只有当他们都首先替对方着想时，或者相互合谋(串供)时，才可以得到最短时间的监禁的结果。 “纳什均衡”首先对亚当?斯密的“看不见的手”的原理提出挑战。按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。不妨让我们重温一下这位经济学圣人在《国富论》中的名言： “通过追求(个人的)自身利益，他常常会比其实际上想做的那样更有效地促进社会利益。 ”从“纳什均衡”我们引出14了“看不见的手”的原理的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说， “纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此，从“纳什均衡”中我们还可以悟出一条真理：合作是有利的“利己策略” 。但它必须符合以下黄金律：按照你愿意别人对你的方式来对别人，但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人” 。但前提是人所不欲勿施于我。其次， “纳什均衡”是一种非合作博弈均衡，在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯?诺依曼和摩根斯特恩的合作博弈理论的重大发展，甚至可以说是一场革命。从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象。我们将例举出许多类似于“囚徒的两难处境” 这样的例子。如价格战、军奋竞赛、污染等等。一般的博弈问题由三个要素所构成：即局中人(players)又称当事人、参与者、策略等等的集合，策略(strategies)集合以及每一对局中人所做的选择和赢得(payoffs)集合。其中所谓赢得是指如果一个特定的策略关系被选择，每一局中人所得到的效用。所有的博弈问题都会遇到这三个要素。2. 价格战博弈：现在我们经常会遇到各种各样的家电价格大战，彩电大战、冰箱大战、空调大战、微波炉大战??这些大战的受益者首先是消费者。每当看到一种家电产品的价格大战，百姓都会“没事儿偷着乐” 。在这里，我们可以解释厂家价格大战的结局也是一个“纳什均衡” ，而且价格战的结果是谁都没钱赚。因为博弈双方的利润正好是零。竞争的结果是稳定的，即是一个“纳什均衡” 。这个结果可能对消费者是有利的，但对厂商而言是灾难性的。所以，价格战对厂商而言意味着自杀。从这个案例中我们可以引伸出两个问题，一是竞争削价的结果或“纳什均衡”可能导致一个有效率的零利润结局。二是如果不采取价格战，作为一种敌对博弈论(vivalry game)其结果会如何呢？每一个企业，都会考虑采取正常价格策略，还是采取高价格策略形成垄断价格，并尽力获取垄断利润。如果垄断可以形成，则博弈双方的共同利润最大。这种情况就是垄断经营所做的，通常会抬高价格。另一个极端的情况是厂商用正常的价格，双方都可以获得利润。从这一点，我们又引出一条基本准则： “把你自己的战略建立在假定对手会按其最佳利益行动的基础上” 。事实上，完全竞争的均衡就是“纳什均衡”或“非合作博弈均衡” 。在这种状态下，每一个厂商或消费者都是按照所有的别人已定的价格来进行决策。在这种均衡中，每一企业要使利润最大化，消费者要使效用最大化，结果导致了零利润，也就是说价格等于边际成本。在完全竞争的情况下，非合作行为导致了社会所期望的经济效率状态。如果厂商采取合作行动并决定转向垄断价格，那么社会的经济效率就会遭到破坏。这就是为什么 WTO 和各国政府要加强反垄断的意义所在。3. 污染博弈：假如市场经济中存在着污染，但政府并没有管制的环境，企业为了追求利润的最15大化，宁愿以牺牲环境为代价，也绝不会主动增加环保设备投资。按照看不见的手的原理，所有企业都会从利己的目的出发，采取不顾环境的策略，从而进入“纳什均衡” 状态。如果一个企业从利他的目的出发，投资治理污染，而其他企业仍然不顾环境污染，那么这个企业的生产成本就会增加，价格就要提高，它的产品就没有竞争力，甚至企业还要破产。这是一个“看不见的手的有效的完全竞争机制”失败的例证。直到 20 世纪 90 年代中期，中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时，企业才会采取低污染的策略组合。企业在这种情况下，获得与高污染同样的利润，但环境将更好。4.贸易自由与壁垒：这个问题对加入 WTO 的中国尤为重要。任何一个国家在国际贸易中都面临着保持贸易自由与实行贸易保护主义的两难选择。贸易自由与壁垒问题，也是一个“纳什均衡” ，这个均衡是贸易双方采取不合作博弈的策略，结果使双方因贸易战受到损害。 X 国试图对 Y 国进行进口贸易限制，比如提高关税，则 Y 国必然会进行反击，也提高关税，结果谁也没有捞到好处。反之，如 X 和 Y 能达成合作性均衡，即从互惠互利的原则出发，双方都减少关税限制，结果大家都从贸易自由中获得了最大利益，而且全球贸易的总收益也增加了。习题1、把“田忌赛马”的故事改编为一个博弈，并用博弈矩阵表示出来。 2、如何利用“囚徒困境”原理打破“价格同盟” ，在防止恶性竞争的同时，实现合理竞争？ 3、观察与思考：市民发起不买房行动倡议公开信，深圳市民发起《 “不买房行动”致全体市民公开信》。呼吁近 3 年之内不要买房，市民积极支持“不买房行动” 。帖子发出后，在网上引起了强烈反响。自上午 11 时公开信发出至晚 19 时，网络点击量便达到了 1717 次，市民回帖达 156 篇，纷纷赞同这个购房者联手平抑楼价的想法。 2006 年一季度，深圳楼市商品房均价达到每平米 8700 元，且继续走高态势。但租房市场却比较平稳，罗湖、福田二房二厅（约 100 平米）的月租金约为 2000 元。疯狂上涨的房价已让深圳人不堪重负，昔日楼市上的弱者群体正在试图走向联合，以“持币待购、推迟买房”对抗不良发展商与楼市炒家的掠夺。 1 试分析该倡议实行的可行性； 2 试以材料数据为主，适当的背景材料为辅，为购房人构建一个博弈模型，探讨其优选可行策略，说明理由。参考文献对本讲内容有兴趣的同学可进一步阅读以下文献中的相关章节16[1] [2] [3] [4]周惠中，2003：《微观经济学》，上海人民出版社张维迎，1996：《博弈论与信息经济学》，上海三联书店，上海人民出版社谢识予，2005：《经济博弈论》，复旦大学出版社 Dixit,A.K.,and Barry J.Nalebuff,2002：《策略思维》中国人民大学出版社，（这是最通俗易懂的一本介绍博弈论的著作，书中很少使用数学，采用的案例来自于电影、小说、传记、日常生活等各个方面。）17
补充内容-博弈决策概要―汇集和整理大量word文档,专业文献,应用文书,考试资料,教学教材,办公文档,教程攻略,文档搜索下载下载,拥有海量中文文档库,关注高价值的实用信息,我们一直在努力,争取提供更多下载资源。}

叫阿莫西中心