两个囚徒的困境 【案例陈述】 在博弈论中有一个经典案例囚徒困境

题目

两个囚徒的困境 【案例陈述】 在博弈论中有一个经典案例囚徒困境,非常耐人寻味。“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。 那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A囚犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。 但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。

如果没有搜索结果或未解决您的问题,请直接 联系老师 获取答案。
相似问题和答案

第1题:

囚徒困境中,对两个囚徒单独同时审问,囚徒A的占优策略是()。

A、不坦白

B、坦白

C、不能确定,要看囚徒B如何选择

D、伺机逃跑


参考答案:B

第2题:

博弈论中“囚徒困境”的纳什均衡为()

A. (坦白,坦白)

B. (抵赖,抵赖)

C. (坦白,抵赖)

D. (抵赖,坦白)


答案:A

第3题:

城市管理中存在的哪些问题是囚徒博弈的结果和囚徒困境的表现?


参考答案:(1)城市公共产品供给不足;(2)城市公共组织效率缺失;(3)城市、区域之间竞争恶化。

第4题:

在囚徒两难困境中,合作性反应是不坦白。


正确答案:正确

第5题:

在一次囚徒困境中,两个囚徒不会合作,但如果博弈重复100次,则他们之间可能合作。( )


答案:错
解析:
如果对一次博弈,只有唯一的纳什均衡,那么对于有限次重复博弈而言,这一结果不会改变。采用逆向归纳法:当博弈到第100次,博弈者不合作的收益大于合作的收益,所以最优策略是不合作。当博弈到99次时,理性博弈者知道第100次博弈不会合作,所以第99次博弈也不合作。依此类推,最优策略都是不合作。

第6题:

“囚徒困境”发生的原因是什么?


参考答案:个人追求自身利益最大化,最终导致了集体利益恶化。

第7题:

请论述“囚徒困境”的经济学意义。


正确答案:

回答此问题,可以参考教材以及以下资料【囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。

  在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。

 囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。

经典的囚徒困境

  1950年,由就职于兰德公司的梅里尔•弗勒德(Merrill Flood)和梅尔文•德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特•塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:

  警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:

  若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。

  若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。

  若二人都互相检举(互相“背叛”),则二人同样判监2年。

  用表格概述如下:

  甲沉默(合作) 甲认罪(背叛)

  乙沉默(合作) 二人同服刑半年 甲即时获释;乙服刑10年

  乙认罪(背叛) 甲服刑10年;乙即时获释 二人同服刑2年

  解说

  如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。

  囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:

  若对方沉默、背叛会让我获释,所以会选择背叛。

  若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。

  二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。

  这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。

现实的例子

  上述例子可能显得不甚自然,但现实中,无论是人类社会或大自然都可以找到类似囚徒困境的例子,将结果划成同样的支付矩阵。社会科学中的经济学、政治学和社会学,以及自然科学的动物行动学、进化生物学等学科,都可以用囚徒困境分析,模拟生物面对无止境的囚徒困境博弈。囚徒困境可以广为使用,说明这种博弈的重要性。以下为各界例子:

  政治学例子:军备竞赛

  在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)。两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备。似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”(例如会对经济造成都有损坏等)。这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平。

  经济学例子:关税战

  两个国家,在关税上可以有以两个选择:

  提高关税,以保护自己的商品。(背叛)

  与对方达成关税协定,降低关税以利各自商品流通。(合作)

  当一国因某些因素不遵守关税协定,独自提高关税(背叛),另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大。)

  商业例子:广告战

  商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。

  两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告,收入增加很少但成本增加。但若不提高广告质量,生意又会被对方夺走。

  此二公司可以有二选择:

  互相达成协议,减少广告的开支。(合作)

  增加广告开支,设法提升广告的质量,压倒对方。(背叛)

  若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。

  自行车赛例子

  自行车赛事的比赛策略也是一种博弈,而其结果可用囚徒困境的研究成果解释。例如每年都举办的环法自由车赛中有以下情况:选手们在到终点前的路程常以大队伍(英文:Peloton)方式前进,他们采取这策略是为了令自己不至于太落后,又出力适中。而最前方的选手在迎风时是最费力的,所以选择在前方是最差的策略。通常会发生这样的情况,大家起先都不愿意向前(共同背叛),这使得全体速度很慢,而后通常会有二或多位选手骑到前面,然后一段时间内互相交换最前方位置,以分担风的阻力(共同合作),使得全体的速度有所提升,而这时如果前方的其中一人试图一直保持前方位置(背叛),其他选手以及大队伍就会赶上(共同背叛)。而通常的情况是,在最前面次数最多的选手(合作)通常会到最后被落后的选手赶上(背叛),因为后面的选手骑在前面选手的冲流之中,比较不费力。

第8题:

囚徒困境反映了:()与()。


参考答案:个人理性;集体非理性冲突

第9题:

根据博弈论,囚徒困境下的囚犯最终会选择()。

  • A、坦白
  • B、认罪
  • C、沉默
  • D、包庇

正确答案:A

第10题:

在具有占优战略均衡的囚徒困境博弈中()。

  • A、只有一个囚徒会坦白
  • B、两个囚徒都没有坦白
  • C、两个囚徒都会坦白
  • D、任何坦白都被法庭否决了

正确答案:C