策略与博弈:囚徒困境中的纳什均衡剖析

纳什均衡是博弈论中的核心概念之一,由数学家约翰·纳什在1950年代提出,用于描述一种多人决策的稳定状态。纳什均衡在经济学、社会学、生物学等多个学科中都有广泛的应用,被认为是理解战略性互动中个体行为的关键。

一、纳什均衡的定义

纳什均衡发生在一个博弈中,当所有参与者都选择了自己的策略,并且没有任何一个参与者能够通过改变自己的策略而单独获得更好的结果时。换句话说,每个参与者的策略都是对其他参与者策略的最佳反应。

二、如何找到纳什均衡

找到纳什均衡通常需要分析每个参与者在其他参与者策略已定的情况下的最佳反应。这可以通过构造最佳反应对应的方程或通过图形方法来实现。

三、纳什均衡的实际例子

囚徒困境是展示纳什均衡最有名的例子之一。在这个例子中,两个犯罪嫌疑人被捕后分别审讯,他们可以选择“合作”(即不揭发对方)或“背叛”(即揭发对方)。

警方向每位囚徒提出以下选择:

  1. 如果一名囚徒招认而另一名囚徒不招认,招认的囚徒将获释作为奖励,而另一名囚徒将因此罪名被判十年徒刑。
  2. 如果两名囚徒都招认,他们将因合作而获得减轻的刑罚,各被判五年徒刑。
  3. 如果两名囚徒都不招认,他们将因轻罪名各被判两年徒刑。 囚徒们的困境在于,他们无法相互沟通,因此无法保证对方的选择。每个囚徒的选择都会直接影响到对方的结果,以及自己的结果。

如果囚徒A信任囚徒B也不会招认,他可能选择不招认,希望两人都只被判两年。然而,如果此时B背叛了A,选择招认,那么A将被判十年,而B将获释。

反之亦然,如果B信任A不招认而自己也选择不招认,但A背叛了B招认,那么B将被判十年,A将获释。

如果两人都不信任对方,担心被对方背叛,最“安全”的选择就是两人都招认,虽然这意味着两人都将被判五年。

在囚徒困境中,虽然合作(即两人都不招认)会带来较轻的总体惩罚(两年乘以二),但每个囚徒面临的个人风险和不确定性导致他们选择自保的策略——招认。因此,纳什均衡在这里是两人都选择招认的情况,尽管这不是最优的社会结果(即“帕累托最优”)

四、纳什均衡的变体

1. 完全信息的子博弈纳什均衡: 在某些博弈中,如棋类游戏,每个动作和决策都是公开的,参与者可以看到对方的每一步行动。在这类博弈中,分析可能会进一步细化到子博弈纳什均衡,即在博弈的每一个阶段,参与者的策略都形成一个纳什均衡。

2. 不完全信息的贝叶斯纳什均衡: 在现实生活中,博弈常常涉及不完全信息,即参与者对其他参与者的信息了解不完整。在这种情况下,每个人需要根据对其他人信息的预期来制定策略,这种均衡状态被称为贝叶斯纳什均衡。

3. 重复博弈中的纳什均衡: 当相同的博弈重复进行多次时,参与者可能会基于以前的行为来调整自己的策略,这可能导致与一次性博弈不同的均衡结果。例如,在反复进行的囚徒困境中,合作可能成为一种可行的策略,尤其是当博弈的未来回合对参与者来说足够重要时。

参考文献

Nash, J. (1950). "Equilibrium Points in N-person Games." Proceedings of the National Academy of Sciences 36(1): 48-49.

Osborne, M.J., & Rubinstein, A. (1994). A Course in Game Theory. MIT Press.

Fudenberg, D., & Tirole, J. (1991). Game Theory. MIT Press.

来源: 北京理工大学