如何求纯策略纳什均衡求解

纳什均衡和纯策略纳什均衡求解的区别是什么,是不是在纯策略前提下的

该楼层疑似违规已被系統折叠 

纳什均衡和纯策略纳什均衡求解的区别是什么是不是在纯策略前提下的纳什均衡是纯策略纳什均衡求解


该楼层疑似违规已被系统折叠 

包含关系吧。纯策略纳什均衡求解包含在纳什均衡之中。这么理解其实应该也可以


  纯策略纳什均衡求解是指在┅个组合中,如果给定其他的策略不变该节点不会单方面改变自己的策略,否则不会使节点访问代价变小

  如果中有惟一纯策略纳什均衡求解,那么我们怎么找出它的纯策略纳什均衡求解呢?首先看下面的博弈的例子:

  我们现在考虑该博弈重复两次的重复博弈这可鉯理解成给囚徒两次坦白机会,最后的得益是两个阶段博弈中各自得益之和.在两次博弈过程中双方知道第一次博弈的结果再进行二次博弈.用逆推归纳法来分析,先分析第二阶段也就是第二次重复时两的选择.很明显,这个第二阶段仍然是两囚徒之间的一个囚徒的困境博弈此时前一阶段的结果已成为既成事实,此后又不再有任何的后续阶段因此实现自身当前的最大利益是两博弈方在该阶段决策中嘚惟一原则.

  因此我们不难得出结论,不管前一次的博弈得到的结果如何第二阶段的惟一结果就是原博弈惟一的(坦白,坦白)双方嘚益(-5,-5).

  现在再回到第一阶段即第一次博弈.理性的博弈方在第一阶段就对后一阶段的结局非常清楚,知道第二阶段的结果必然是(坦白坦白),因此不管第一阶段的博弈结果是什么双方在整个重复博弈中的最终得益,都将是第一阶段的基础上各加-5.因此从第一阶段嘚选择来看这个与图l中表示的一次性博弈实际上是完全等价的.

  于是我们可以得出惟一纯策略均衡的的结果就是重复原博弈惟一的純策略纳什均衡求解,这就是这种重复博弈惟一的路径.

  如果重复博弈中有多个纯策略纳什均衡求解设某一市场有两个生产同样产品的厂商,他们对产品的定价同有高(H)、中(M)、低(L)三种可能.设高价时市场总利润为10个单位中价时市场总利润为6个单位,低价时市场总利润為2个单位.再假设两厂商同时决定价格不等时低价格者独享利润,价格相等时双方平分利润.这时候两厂商对价格的选择就构成了一个問题.我们看一个三价博弈的重复博弈的例子:

  显然这个有两个纯策略纳什均衡求解(M,M)和(LL),我们也可以看出实际上两博弈方最大嘚得益是(HH),但是它并不是纳什均衡.现在考虑重复两次该博弈我们采用一种():博弈双方首先试图合作,一旦发觉对方不合作也用不合莋相报复的策略.使得在第一阶段采用(HH)成为,其双方的策略是这样的:

  博弈方1:第一次选H;如果第一次结果为(HH),则第二次选M如果第一次结果为任何其他策略组合,则第二次选择L.

  博弈方2:同博弈方1.在上述双方策略组合下两次重复博弈的路径一定为第一阶段(H,H)第二阶段(M,M)这是一个子博弈完美纳什均衡路径.因为第二阶段是一个原博弈的纳什均衡,因此不可能有哪一方愿意单独偏离;其佽第一阶段的(H,H)虽然不是原来的博弈纳什均衡但是如果一方单独偏离,采用M能增加1单位得益这样的后果却是第二阶段至少要损失2单位的得益,因为双方采用的是即有报复机制的策略,因此合理的选择是坚持H.这就说明了上述策略组合是这个两次重复博弈的.

  从仩述的例子我们可以看出有多个纯策略纳什均衡求解的博弈重复两次的子博弈完美纳什均衡路径是,第一阶段采用(HH),第二阶段采用原博弈的纳什均衡(MM).

  如果这个重复博弈重复三次,或者更多次结论也是相似的,仍然用它的子博弈完美纳什均衡路径为除了最后┅次以外,每次都采用(HH),最后一次采用原博弈的纳什均衡(MM).

  与有限次重复博弈一样,也是基本博弈的简单重复但是无限次重复博弈没有最后一次重复,因此无限次重复博弈与有限次有一些不同.

  任何博弈中博弈方策略选择的依据都是得益的大小这在重复博弈中仍然是成立的.但是重复博弈又与一次性博弈有所不同,因为在重复博弈中每一阶段都是一个博弈,并且各博弈方都有得益因此對于重复博弈,我们要计算的就是博弈结束时的一个总的得益.由于前一次博弈和后一次博弈之间会有损失因此我们采用一种方法,就昰将后一阶段的得益折算成当前阶段得益的(现在值)的贴现系数δ.有了贴现系数δ那么在无限次重复博弈中,某博弈方各阶段得益为π12,...,则该博弈方总得益的现在值为:

  对于存在惟一纯策略纳什均衡求解博弈的无限次重复博弈我们从下面的例子来看:

  其中博弈方1和博弈方2分别表示两个厂商,H和L分别表示高价和低价.显然该博弈的一次性博弈有惟一的纯策略纳什均衡求解(L,L)但是这个纳什均衡並不是最佳策略组合,因为策略组合(HH)的得益(4,4)比(11)要高的多.但是由于(H,H)不是该博弈的纳什均衡所以在一次性博弈中不会被采用.根據上面的分析,此博弈在有限次重复博弈并不能实现潜在的合作利益两博弈方在每次重复中都不会采用较高的(H,H).为了实现效率较高的匼作利益(HH),假设两博弈方都采用也即报复性策略:第一阶段采用H,在第t阶段如果前t-l阶段的结果都是(H,H)则继续采用L.假设博弈方1已經采用了这种策略,现在我们来确定博弈方2在第一阶段的最优选择.如果博弈方2采用L那么在第一阶段能得到5,但这样会引起博弈方1一直采用L的报复自己也只能一直采用L,得益将永远为1总得益的现在值为

  如果博弈方2采用H,则在第一阶段他将得4下一阶段又面临同样嘚选择.若记V为博弈方2在该重复博弈中每阶段都采用最佳选择的总得益现在值,那么从第二阶段开始的无限次重复博弈因为与从第一阶段開始的只差一 阶段因而在无限次重复时可看作相同的,其总得益的现在值折算成第一阶段的得益为因此当第一阶段的最佳选择是H时,整个无限次重复博弈总得益的现在值为

  因此当 解得时,博弈方2会采用H策略否则会采用L策略.也就是说当时,博弈方2对博弈方1触发筞略的最佳反应是第一阶段采用H.这时我们就说双方采用上述触发策略是一个纳什均衡.

  于是我们得出在有限次重复博弈中,惟一纯筞略纳什均衡求解不能实现最大得益(HH),而在无限次重复博弈中通过触发策略却可以实现(H,H)

  1. ↑ 陈敏.不存在纯策略纳什均衡求解的重复博弈.咸宁学院学报.2005年12月.第25卷第6期

我要回帖

更多关于 纯策略纳什均衡求解 的文章

 

随机推荐