kenshin(宁微君)
|
|
1 楼:
博弈论基础
|
06年04月16日18点49分 |
发现最近论坛出现了博弈风,就贴出来共享吧
第一节 博弈问题概述
一、博弈的基本概念
博弈论的基本概念包括:参与人、行为、信息、战略、支付函数、结果、均衡。 参与人是指博弈中选择行动以最大化自身利益(效用、利润等)的决策主体(如个人、厂商、国家)。 行动是指参与人的决策变量。 战略是指参与人选择行动的规则,它告诉参与人在什么时候选择什么行动。 例如,“人不犯我、我不犯人;人若犯我、我必犯人”是一种战略。这里,“犯”与“不犯”是两种不同的行动。战略规定了什么时候选择“犯”,什么时候选择“不犯”。 信息是指参与人在博弈中的知识,特别是有关其他参与人(对手)的特征和行动的知识。 支付函数是参与人从博弈中获得的效用水平,它是所有参与人战略或行动的函数,是每个参与人真正关心的东西。结果是指博弈者感兴趣的要素的集合。 均衡是所有参与人的最优战略或行动的组合。 上述概念中,参与人、行动、结果统称为博弈规则。博弈分析的目的是使用博弈规则决定均衡。
二、博弈的分类
根据博弈者选择的战略,可以将博弈分成合作博弈(cooperative games)与非合作博弈(non-cooperative games).合作博弈与非合作博弈之间的区别,主要在于博弈的当事人之间能否达成一个有约束力的协议。如果有,就是合作博弈;反之,就是非合作博弈。
根据参与人行动的先后顺序,可以将博弈分成静态博弈(static game)与动态博弈(dynamic game)。静态博弈是指,博弈中参与人同时选择行动;或者虽非同时行动,但行动在后者并不知道行动在先者采取了什么具体行动。动态博弈是指参与人的行动有先后顺序,而且行动在后者可以观察到行动在先者的选择,并据此作出相应的选择。
根据参与人对其他参与人的了解程度,可以将博弈分成完全信息博弈(games of complete information)和不完全信息博弈(games of incomplete information)。完全信息博弈是指:在每个参与人对所有其他参与人(对手)的特征、战略和支付函数都有精确了解的情况下,所进行的博弈。如果了解得不够精确,或者不是对所有的参与人都有精确的了解,在这种情况下进行的博弈就是不完全信息博弈。
第二节 完全信息静态博弈
一、占优战略均衡
一般来说,由于每个参与人的效用(支付)是博弈中所有参与人的战略的函数,因而每个参与人的最优战略选择依赖于所有其他参与人的战略选择。但在一些特殊的博弈中,一个参与人的最优战略可能并不依赖于其他参与人的战略选择。换句话说,不论其他参与人选择什么战略,他的最优战略是唯一的,这样的最优战略被称为 “占优战略”(dominant strategies)。
囚徒困境(prisoner’s dilemma)
囚徒困境反映了一个深刻的问题,这就是个人理性与团体理性的冲突。微观经济学的基本观点之一,是可以通过市场机制这只“看不见的手”,在人人追求自身利益最大化的基础上达到全社会资源的最优配置。囚徒困境是对上述基本观点的挑战。
二、重复剔除的占优战略均衡
在绝大多数博弈中,占优战略均衡是不存在的。尽管如此,在有些博弈中,我们仍然可以用占优的逻辑找出均衡。
智猪博弈(boxed pigs)
在这个博弈中,无论大猪选择什么战略,小猪的占优战略均为等待。而对大猪来说,其最优战略依赖于小猪的选择。如果小猪选择等待,大猪的最优战略是按按钮;如果小猪选择按按钮,则大猪的最优战略是等待。换句话说,大猪没有占优战略。 什么是这一博弈的均衡解呢?假定小猪是理性的,它肯定会选择自己的占优战略——等待。再假定大猪知道小猪是理性的,则大猪会正确地预测到小猪会选择等待,根据小猪的这一选择,大猪选择了在此前提下自己的最优战略——按按钮。
在寻找智猪博弈的均衡解时,我们所使用的做法可以归纳如下:首先找出某一博弈参与人的严格劣战略,将它剔除掉,重新构造一个不包括已剔除战略的新的博弈;然后继续剔除这个新的博弈中某一参与人的严格劣战略;重复进行这一过程,直到剩下唯一的参与人战略组合为止。这个唯一剩下的参与人战略组合,就是这个博弈的均衡解,称为“重复剔除的占优战略均衡”(iterated dominance equilibrium).
三、纳什均衡
纳什均衡(Nash equilibrium)是指这样一种均衡。在这一均衡中,每个博弈参与人都确信,在给定其他参与人战略策略决定的情况下,他选择了最优战略。纳什均衡是完全信息静态博弈解的一般情况。构成纳什均衡的战略组合一定是在重复剔除严格劣战略过程中无法被剔除的战略组合。 在占优战略均衡中,无论所有其他参与人选择什么战略,一个参与人的占优战略都是他的最优战略。显然,这一占优战略也必定是所有其他参与人选择某一特定战略时该参与人的最优战略。因此,占优战略均衡一定是纳什均衡。在重复剔除的占优战略均衡中,最后剩下的唯一战略组合,一定是在重复剔除严格劣战略过程中无法被剔除的战略组合。因此,重复剔除的占优战略均衡也一定是纳什均衡。
第三节 完全信息动态博弈
一、子博弈精炼纳什均衡
在动态博弈中,参与人的行动有先后顺序,而且后行动的参与人在自己行动之前可以观测到先行动者的行动,并选择相应的战略。由于先行动者拥有后行动者可能选择战略的完全信息,因而先行动者在选择自己的战略时,就可以预先考虑自己的选择对后行动者选择的影响,并采取相应的对策。
子博弈精炼纳什均衡(sub-game perfect Nash equilibrium)。 子博弈是原博弈的一部分,它本身可以作为一个独立的博弈进行分析。例如,在表7-5中,每一列或每一行都是一个子博弈。任何博弈本身则被称为自身的一个子博弈。 只有当某一战略组合在每一个子博弈(包括原博弈)上都构成一个纳什均衡,这一战略组合才是子博弈精炼纳什均衡。
二、重复博弈
以上讨论的动态博弈有这样一个特点。这就是,参与人在前一个阶段的选择将决定随后的子博弈的结构。在上述房地产开发博弈中,子博弈甲不同于子博弈乙。当A选择了开发后,子博弈乙就被排除了。这样的动态博弈称为序贯博弈(sequential games)。动态博弈中另外一类是所谓的重复博弈(repeated games)。顾名思义,重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为阶段博弈(stage game)。
影响重复博弈均衡结果的主要因素,是博弈重复的次数和信息的完备性。重复次数的重要性来自参与人在短期利益和长期利益之间的权衡。当博弈只进行一次时,每个参与人都只关心一次性的支付;但如果博弈重复多次,参与人可能会为了长远利益而牺牲眼前利益,从而选择不同的均衡战略。就信息的完备性而论,当一个参与人的支付函数还不为其他参与人所知时,该参与人可能有积极性建立一个良好的声誉以换取长远利益。
冷酷战略(grim strategies):A起初选择合作;但如果B在某一阶段博弈中选择不合作的话,A将永远选择不合作。
博弈重复次数有限时的情况。 博弈重复次数有限,意味着存在所有参与人都可以预测到的“最后一次”。在最后的阶段博弈中,如果某一参与人选择了自己的占优战略,给其他参与人造成损失,则其他参与人不可能报复。所有的参与人都明白这一点,因而在最后一次阶段博弈中都会选择占优战略——给自己的产品制定低价,从而构成与完全信息静态博弈相同的占优战略均衡。
从最后的阶段开始,逐个阶段进行推理,可以得出以下结论:在阶段博弈有唯一的纳什均衡时,n次重复博弈的唯一子博弈精炼纳什均衡结果,是阶段博弈的纳什均衡重复n次。这就是说,每个阶段博弈出现的都是一次性博弈的均衡结果。 在这里,阶段博弈纳什均衡的唯一性是一个重要条件。如果纳什均衡是唯一的,上述结论就不一定成立。
三、动态博弈战略行动
在动态博弈中,参与人为了使得其他参与人的选择对自己有利,往往采取一些行动来影响其他参与人对于自己行为的预期。这些行为称为战略行动(strategic move)。
1.首先行动优势 首先行动优势(first-mover advantage)是指,在博弈中首先作出战略选择并采取相应行动的参与人可以获得较多的利益。
2.确实可信的威胁
确实可信的威胁(credible threat)是指,博弈的参与人通过某种行动改变自己的支付函数,从而使得自己的威胁显得可信。参与人为改变博弈结果而采取的措施称为承诺(commitment)。
第四节 不完全信息静态博弈
在许多情况下,参与人对对手的了解往往是不够精确的。这种情况下的博弈就是不完全信息博弈。
举例来说,某一市场原来被A企业所垄断。现在B企业考虑是否进入。B企业知道,A企业是否允许它进入,取决于A企业阻挠B企业进入所花费的成本。如果阻挠的成本低,那么,正如表7-10后两列所表示的,A企业的占优战略是阻挠,博弈有重复剔除的占优战略均衡——A阻挠,B不进入。如果阻挠的成本高,那么,正如表7-10前两列所表示的,A企业的占优战略是默许B进入,博弈有重复剔除的占优战略均衡——A默许,B进入。B企业所不知道的,是A企业的阻挠成本是高是低。这里,某一参与人本人知道、其他参与人则不知道的信息称为私人信息。某一参与人所拥有的全部私人信息称为他的类型。在上述例子中,阻挠成本就是 A的私人信息。高阻挠成本和低阻挠成本则是两种不同的类型。 显然,在这里,B所遇到的,是不确定性条件下的选择问题。因为B不仅不知道A的类型(是高还是低),而且不知道不同类型的分布概率。
解决这类问题的方法之一,就是把不确定性条件下的选择转换为风险条件下的选择。在风险条件下,B虽然不知道A的类型,但可以知道不同类型的分布概率。将不确定性条件下的选择转换为风险条件下的选择,称为海萨尼转换(the Harsanyi transformation)。
按照海萨尼的方法,所有参与人的真实类型都是给定的。其他参与人虽然不清楚某一参与人的真实类型,但知道这些可能出现的类型的分布概率,而且这种概率是公共知识。用上例来说,公共知识不仅意味着B企业知道A企业高阻挠成本与低阻挠成本的分布概率,而且意味着A也清楚B知道这一概率。
通过海萨尼转换,不完全信息博弈变成了完全但不完美信息博弈(games of complete but imperfect information)。这里的不完美信息,就是指其他参与人只知道某一参与人某些方面类型的分布概率,而不知道该参与人在这些方面的真实类型。
在上述转换的基础上,海萨尼提出了贝叶斯纳什均衡(Bayesian Nash equilibrium)。对此,可以作如下解释:在不完全信息静态博弈中,参与人同时行动,没有机会观察到别人的选择。给定其他参与人的战略选择,每个参与人的最优战略依赖于自己的类型。由于每个参与人仅知道其他参与人有关类型的分布概率,而不知道其真实类型,因而,他不可能知道其他参与人实际上会选择什么战略。但是,他能够正确地预测到其他参与人的选择与其各自的有关类型之间的关系。
因此,该参与人的决策目标就是:在给定自己的类型,以及给定其他参与人的类型与战略选择之间关系的条件下,使得自己的期望效用最大化。
贝叶斯纳什均衡是一种类型依赖型战略组合。在给定自己的类型和其他参与人类型的分布概率的条件下,这种战略组合使得每个参与人的期望效用达到了最大化。
回到上面提到的市场进入的例子。在这个例子里,对于挑战者B来说,原垄断者A在阻挠成本方面,存在着两种可能性:高成本或低成本。B不知道A的阻挠成本究竟是高是低,但他知道A在这两种不同阻挠成本下会作出的选择,以及不同阻挠成本(类型)的分布概率。假定高成本的概率为x,则低成本的概率为(1-x)。如果A的阻挠成本高,A将默许B进入市场;如果A的阻挠成本低,A将阻挠B进入市场。在这两种情况下,如表7-10所示,B进入的支付函数分别是得到40和失去10。因此,B选择进入所得到的期望利润为40x+(-10)(1- x),选择不进入的期望利润为0。简单的计算表明,当A阻挠成本高的概率大于20%时,挑战者B选择进入得到的期望利润大于选择不进入的期望利润。此时,选择进入是B的最优选择。此时的贝叶斯纳什均衡为,挑战者B选择进入,高成本原垄断者选择默许,低成本原垄断者选择阻挠。
根据参与者类型的公共知识获得参与者行动的概率,依此决定下一步策略。
第五节 不完全信息动态博弈
在动态博弈中,行动有先后次序,后行动者可以通过观察先行动者的行为,来获得有关先行动者的信息,从而证实或修正自己对先行动者的判断。 如上所述,在不完全信息条件下,博弈的参与人知道其他参与人可能有哪几种类型,也知道不同的类型与相应战略选择之间的关系。但他们并不知道其他参与人的真实类型。在不完全信息静态博弈中,我们是通过海萨尼转换,即通过假定其他参与人知道某一参与人的所属类型的分布概率,来得出博弈的贝叶斯纳什均衡结果的。
而在不完全信息动态博弈中,问题变得更加简单。博弈开始时,某一参与人既不知道其他参与人的真实类型,也不知道其他参与人所属类型的分布概率。他只是对这一概率分布有自己的主观判断,即有自己的信念。博弈开始后,该参与人将根据他所观察到的其他参与人的行为,来修正自己的信念。并根据这种不断变化的信念,作出自己的战略选择。
对应于不完全信息动态博弈的均衡概念是精炼贝叶斯均衡(perfect Bayesian equilibrium)。这个概念是完全信息动态博弈的子博弈精炼纳什均衡与不完全信息静态均衡的贝叶斯(纳什)均衡的结合。
具体来说,精炼贝叶斯均衡是所有参与人战略和信念的一种结合。它满足如下条件:第一,在给定每个参与人有关其他参与人类型的信念的条件下,该参与人的战略选择是最优的。第二,每个参与人关于其他参与人所属类型的信念,但是使用贝叶斯法则从所观察到的行为中获得的。
贝叶斯法则是概率统计中的应用所观察到的现象对有关概率分布的主观判断(即先验概率)进行修正的标准方法。采用上一节的例子,可以将贝叶斯规则的分析思路表达如下。 挑战者B不知道原垄断者A是属于高阻挠成本类型还是低阻挠成本类型,但B知道,如果A属于高阻挠成本类型,B进入市场时A进行阻挠的概率是20%(此时A为了保持垄断带来的高利润,不计成本地拼命阻挠);如果A属于低阻挠成本类型,B进入市场时A进行阻挠的概率是100%。 博弈开始时,B认为A属于高阻挠成本企业的概率为70%,因此,B估计自己在进入市场时,受到A阻挠的概率为: 0.7×0.2+0.3×1=0.44 0.44是在B给定A所属类型的先验概率下,A可能采取阻挠行为的概率。 当B进入市场时,A确实进行阻挠。使用贝叶斯法则,根据阻挠这一可以观察到的行为,B认为A属于高阻挠成本企业的概率变成 A属于高成本企业的概率=0.7(A属于高成本企业的先验概率)×0.2(高成本企业对新进入市场的企业进行阻挠的概率)÷0.44=0.32 根据这一新的概率,B估计自己在进入市场时,受到A阻挠的概率为: 0.32×0.2+0.68×1=0.744 如果B再一次进入市场时,A又进行了阻挠。使用贝叶斯法则,根据再次阻挠这一可观察到的行为,B认为A属于高阻挠成本企业的概率变成 A属于高成本企业的概率=0.32(A属于高成本企业的先验概率)×0.2(高成本企业对新进入市场的企业进行阻挠的概率)÷0.744=0.086 这样,根据A一次又一次的阻挠行为,B对A所属类型的判断逐步发生变化,越来越倾向于将A判断为低阻挠成本企业了。 以上例子表明,在不完全信息动态博弈中,参与人所采取的行为具有传递信息的作用。尽管A企业有可能是高成本企业,但A企业连续进行的市场进入阻挠,给B企业以A企业是低阻挠成本企业的印象,从而使得B企业停止了进入地市场的行动。 应该指出的是,传递信息的行为是需要成本的。假如这种行为没有成本,谁都可以效仿,那么,这种行为就达不到传递信息的目的。只有在行为需要相当大的成本,因而别人不敢轻易效仿时,这种行为才能起到传递信息的作用。 传递信息所支付的成本是由信息的不完全性造成的。但不能因此就说不完全信息就一定是坏事。研究表明,在重复次数有限的囚徒困境博弈中,不完全信息可以导致博弈双方的合作。理由是:当信息不完全时,参与人为了获得合作带来的长期利益,不愿过早暴露自己的本性。这就是说,在一种长期的关系中,一个人干好事还是干坏事,常常不取决于他的本性是好是坏,而在很大程度上取决于其他人在多大程度上认为他是好人。如果其他人不知道自己的真实面目,一个坏人也会为了掩盖自己而在相当长的时期内做好事。
根据参与者类型的公共知识以及参与者历史行为来获得参与者行动的概率,依此决定下一步策略。
|
点击复制本贴地址:
|
|
梦醒人间看微雨,江山还似旧温柔
缪斯的花园:http://blog.sina.com.cn/freekenshin
新浪微博:http://www.weibo/freekenshin
宁微君
QQ:176261449
E-mail: cutthink@163.com
|
※来源: 【 推理之门 Tuili.Com 】.
|
|