汤姆·齐格弗里德《纳什均衡与博弈论》笔记（3）

发布时间：2024年01月21日

第四章史密斯的策略——进化、利他主义与合作

博弈论有助于解释在动物（包括人类）世界中社交行为的进化，解开了达尔文进化论中初始的谜团：为什么动物会合作？你可能会认为，斗争的生存法则将会助长自私。然而，合作在生物世界却相当普遍，从寄生虫与寄生主体的共生关系到人们经常向陌生者展示的利他主义。如果没有如此广泛的合作，人类的文明绝不会形成；如果不理解合作是如何演变的，那么描述人类社会行为的自然法则也将不可能存在。这一理解的关键线索来自于博弈论。

梅纳德·史密斯的鹰-鸽游戏

梅纳德·史密斯证明博弈论能够解释生物体如何采用不同的策略在暴虐的生态环境下生存并繁衍后代继续斗争。进化是一场所有生命都参与的博弈。所有的动物参加，所有的植物也参加，所有的细菌同样如此。你无需将任何理性或思维能力归于生物体——它们的策略仅仅是他们的特性和习性的综合。成为一棵矮树还是一棵高树好呢？成为一个超级快的四足动物还是一个很慢但聪明的两足动物，哪一个更好呢？动物不能如此选择它们的策略，因为它们本身就是策略。

我认为这是一个令人好奇的观察。如果每一个生物（植物、虫子）就是一种不同的策略，那么为什么会有那么多的生命样式呢？为什么会有如此多的不同的生存策略呢？为什么不存在一个最佳的生存策略呢？为什么没有一个能优于所有的他者，成为唯一的生存者，独中“最适者生存”的大奖呢？当然，达尔文已经处理了这一问题，解释了不同的生存优势如何被自然选择所利用，使生命多样化，从而形成各式各样的物种（就像亚当·斯密所提到的大头针工厂里的专业工种的不同分类一样）。然而，梅纳德·史密斯将达尔文的解释拓展到一个更深的层次，使用具有数学严密性的博弈论证明了为什么进化不是一个“赢者通吃”的博弈。

在研究这些时，梅纳德·史密斯发现有必要从两个方面对经典博弈论进行修饰：用“适者生存”的进化思想来代替效用；用“自然选择”来代替理性。他注意到在经济学的博弈理论中，“效用”是某种人为意义上的；它是一个概念，试图“将一系列定性式的截然不同的结果分配于线性标度上”，比如说一千美元，“失去女友，失去生命。”然而，在生物学中，“适应，或者后代的预期数目，可能是很难测量的，但它也不是一个模糊的概念。只有一种正确的综合不同成分的方式——例如生存的机会和繁衍的机会。”梅纳德·史密斯认为，“合理性”作为人类博弈者的策略，呈现出了两个小问题，“很难决定什么是合理的，而且，人们不是理性地行事。”因此，他声称，“这些变化的影响使得博弈论更好地应用于生物学而不是人类科学。”

为了解释他的观点，他设计了一个聪明的但却简单的动物相争的游戏——著名的鹰-鸽游戏，它证明了为什么一个单一的策略不会产生稳定的群体。设想有这样一个世界，一个只有鸟类栖居的“鸟的星球”。这些鸟能够表现得要么像鹰一样（好斗，经常为食物而打斗），要么像鸽子一样（总是被动的，爱好和平的）。现在，假设这些鸟全部决定“像鹰一样”是它们最佳的生存策略。无论何时，它们中的两个看到食物，它们便会打斗直到分出胜负，赢的那方吃掉食物，输的那方就得处理自己的伤口，忍受饥饿，甚至面临死亡。对于赢的那方来说，它们也有可能受伤，这样也减少了它们从食物中得到的利益。现在假设这些像鹰一样的鸟中有一只发现这样的争斗是索然无趣的。他开始决定像鸽子一样行事。当发现食物时，只有没有其他鸟在周围时它才会吃掉食物。如果有任何一只鹰出现，它便会立刻飞走。这只鸟可能会失去一些食物，但是至少它避免了在战斗中失去自己的羽毛。而且，假设有一些鸟都尝试以鸽子的方式行事，那么当它们遇到食物的时候会一起分享。当鹰们互相厮杀的时候，这些鸽子却在享受美味。因此，梅纳德·史密斯认为，一个全部都是鹰的种群并不是一个“进化稳定的策略。”一个全部都是鹰的社会容易受到鸽子的入侵。同时，一个全部都是鸽子的社会也不是一个稳定的社会。第一头转变的鹰会享受美味，因为其他的鸽子见到它都会飞走。只有当更多的鹰出现时，才会有在战斗中面临死亡的危险。所以问题是，什么才是最佳策略？选择当鹰还是当鸽子？事实证明最佳生存策略取决于在这个群体里有多少头鹰。如果鹰的数目很少，鹰式策略便是最佳的，因为其大部分的对手是鸽子，鸽子一见到鹰便会远离争斗。但是，如果鹰的数目较多，它们会陷入代价惨痛的混战——这时，鸽式策略是明智的。因此，社会会进化成既有鸽又有鹰的共同社会。争斗的代价越高，鹰的数目就越少。梅纳德·史密斯用纳什均衡在生物领域相对应的理论——进化稳定策略展示了如何用博弈论来完美地描述这种情形。

当一种进化稳定策略类似于纳什均衡时，它并不总是精确地对等。在许多类型的博弈中，可能有不止一个纳什均衡，并且它们中的一些可能也并不是进化稳定策略。一个生态系统由有着固定行为策略的不同物种组成。在没有受到突变体引入新的策略到竞争中时，一个生态系统处于纳什均衡。这样一个生态系统并不是进化上稳定的。但是这些鸟是不可能意识到这些差别的。确切地说，鹰与鸽的比例取决于争斗确切的代价和逃跑时丧失食物的代价。

批注：囚徒困境也是这样。

地景上的进化

当进化学者谈论环境改变时，典型的他们一般都会说到像气候，或者近期行星相互作用的影响之类的事情。但是有机生物体本身的变化策略也同样重要。这就是为什么博弈论对于理解进化是必须的。记得纳什均衡的一个基本概念——已知他人正在做什么，任何人都尽其可能做得最好。换句话说，最佳生存策略取决于你周围的人以及他们的行为如何。当你的生存取决于他人的行为时，那么无论你愿意与否，你都已经处于博弈之中了。

用进化论的语言表述，在生存博弈中成功等价于“适应”。最适应者得以生存且繁衍后代。显然一些个体和其他的个体相比，会在这个博弈中得到更好的成绩。生物学家喜欢用地理学上的术语——“地景”这一比喻来描述这种在适应上的差别。使用这个比喻，你能够想到适应性——或者一个博弈的目标——当占到上风时，可以更好地俯瞰脚下的美景。如方便起见，你可以具体化你在地图上的纬度和经度来描述你的适应性。一些纬度-经度点会使你站在更高的位置上；一些则会让你处于深坑之中。换句话说，一些位置比其他的位置更适合你。这是另外一种说法，某些特征和行为的组合可以提高生存和繁衍的机会。实际上生物学的适应性指类似于一座山峰的顶点，是比较有利的位置。在适应的地景上，（正如真实的地景）当然可以有不止一座顶峰——多于一种特性的组合，很可能出现更易于生存的后代（在都由鸟群组成的岛屿这块单一的土地上，你可以有一个鸽子的顶峰和一个老鹰的顶峰）。在一块有着很多适应性的顶峰中，一些顶峰可能比其余的更高（这意味着对你的繁衍机会更有利），但是仍然有很多足够好的顶峰适合一个物种生存。在一片真实的地景上，你的有利位置点可能被许多事件所扰乱。一个自然灾害——一次飓风如卡特里娜，或者一次地震和海啸——可以逐渐改变陆地的形状，以前的纬度和经度可能提供给你很美的风景，但是现在却变成了泥地。类似地，在进化中，在适合生存的土地上所发生的一个变化就可能会使曾经适于生存的生物濒临灭绝，恐龙便是一个例证。

然而你并不需要行星的影响来改变生物的适应性。简单地，假设有新的物种进入生物系统。一些过去被认为是好的策略——比如说，生活在湖里远离水域的肉食动物，在没有鳄鱼的环境里可能会生活得很好，但是如果当鳄鱼也进入该领域的时候，情况就不妙了。因此，随着进化的发展，适应的地域也会发生相应的变化。你的最佳进化策略，换句话说，取决于在你身边的和你一起进化的人是谁。没有一个物种像鲁宾逊那样，孤独地生活在海岛上。因此，什么时候你该做什么事取决于你周围的人在做什么，解释该现象的理论就叫做博弈论。

意识到不断变化的进化地景是解释合作性行为产生的关键。尤其，和其他动物相比，人类会展示更多的精细合作，而博弈论有助于解释这类现象。

批注：所以要“终日乾乾，与时偕行”吧~。

利他主义与合作的形成

并非非人类的动物从不合作，如蚂蚁。但是很容易从基因遗传的进化角度来解释群居昆虫间的合作。在群体中，蚂蚁是密切联系的，并通过合作增加将它们共享基因传给将来种群的概率。……

“非家族间的个体合作是非常有趣的，因为竞争才是进化的动力，如果你想最适应的生存下去，必须和别人竞争，但是这种竞争很难解释合作产生的原因。”

达尔文认为这是“利他主义”。表现得有利于他人——以一定的代价帮助其他人，而自己没有得到什么益处——这在生存斗争中看起来是相当愚蠢的行为。但是人类（他们中的许多人，至少是有些人）拥有助人为乐的良好品德。作为一个好人一定具有某种生存优势，无论是不是里奥·杜罗切想的那样（他是20世纪中期棒球队的负责人，他因为说过“好人总是最后一名”这句话而出名）。

一个早期的猜想认为利他主义以某种方式有利于利他主义者，像相互的共同利用。如果你帮助你的邻居解决一个问题，也许有一天他也会帮助你（这是“互惠的利他主义”的概念）。但是，这种解释不是很充分。这种回报只有在将来你能够遇到曾经帮助过的人时才起作用。然而人们经常帮助一些陌生人，这些人也许以后再也遇不到。可能你仍有可能因为曾经帮助过别人而间接得到好处。假设你帮助一个陌生人并再也没有遇见过，但是那个陌生人由于你的善良帮助而感动，他也因此成为心地善良、乐于助人的人，给所有有困难的人提供帮助。某一天，其中一个受过他帮助的人会遇到你，并且帮你解决问题，感谢那次经历——你鼓励过那个乐善好施者。

这种“间接的互惠”，诺瓦克告诉我，已经很早就被生物学家理查德·亚历山大提到过，但是却经常被进化生物学家忽视。当你听到这时，你会感觉有点牵强。尽管如此，诺瓦克已经与维也纳的数学家卡尔西格·雷蒙详细地讨论过间接互惠的观点。最近，他们发表一篇文章，用博弈论中的数学知识说明间接互惠如何才能实际起作用。利他主义的秘密，诺瓦克认为，是声誉的力量。“通过帮助别人，我们会提高自己的声誉，”他说，“而且在群体中的好名声会增加别人帮助你的机会。”名誉的重要性解释了为什么人类语言变得很重要——所以人们喜欢说闲话。闲话传播人的名誉，使得利他主义的行为更可能根据名誉来实施。“人们要花费多少时间来谈论别人，好像人们一直都在评价他人的名声，这个问题很有趣，”诺瓦克说。“语言帮助合作性行为的发展，反之，合作也促进语言的演化。一个合作的群体使语言变得更重要……在间接互惠的情况下，你可以观察一个人，看他如何表现，或者更有效地，你可以直接和他说话……完成这些事，语言是非常必须的。”

名誉滋生合作，因为它允许人在生活博弈中更好地预测他人的行为。在囚徒困境游戏中，例如，如果两个囚徒相互合作的话，那么他们都会出狱。但是你如果怀疑你的对手会不合作，那么你最好背叛他。在一轮只有一颗子弹的枪击游戏中，如果遇到不出名的对手，聪明的玩法是背叛他。然而，如果你的对手是位信誉很好的合作者，那么与他合作是很好的主意，这样你们两个都会受益。在重复博弈的情况下，合作会提高你的名誉。

以牙还牙策略

关于名誉的闲话可能还不足以创造一个合作的社会。数学计算表明间接互惠会给大的社会带来一些利他行为，而这些行为可能会导致发生某些问题。诺瓦克和西格蒙德的间接互惠模型受到几位专家的批评。他们指出，这种模式只能在种群规模小的群体中起作用。2004年在波士顿召开的复杂性会议上，我再次遇见诺瓦克时，他的分析已经变得很详尽了。

在与他的谈话中，在分析合作进化论时，他重新阐述了囚徒困境中博弈的角色。该理论的背景是出自1980年一个著名的博弈论比赛，组织这场比赛的是密歇根大学的政治科学家艾克斯·罗德。他用囚徒困境博弈来测试博弈理论家自身的能力强弱。他邀请博弈论专家们参加这一比赛，并以计算机程序的形式提交一种策略来进行囚徒困境博弈，然后在循环赛中让这些程序互相斗争。每一个程序都会与其余程序进行互相斗争，最终以达尔文观点来决出最适应的策略。

在14个提交的策略中，赢者是用最简单的方法——一个模拟的方法称为以牙还牙，这个策略是由博弈理论家阿纳托尔·拉波波特想出的。在以牙还牙的策略中，游戏者在第一轮中采取合作方案。然后，在下一轮游戏中，该游戏者会选择上一轮游戏中对手所采取的方案。如果其他游戏者选择合作，那么以牙还牙的游戏者也会如此。然而不管什么时候，只要对手选择背叛，以牙还牙的游戏者在下一轮比赛中也会选择背叛。直到对手选择合作之前，他一直会采用背叛这种方式。在任意给定游戏次数，并与固定对手对弈的比赛中，使用以牙还牙的策略也许会输。但是如果比赛次数无限多，并与不同的策略对抗时，平均来说，以牙还牙的策略是优于其他策略的。或者至少在艾克斯的比赛中是这样。

一旦采用以牙还牙的策略者取胜，那么看起来更好的策略似乎是可能发掘的。所以艾克斯又举办了一次比赛，这次有62个人参加，在第二轮的参赛者中，只有一个人使用以牙还牙的策略。他就是拉波波特，而且他又一次赢了。你可以明白以牙还牙策略是如何在一个群体中增加合作机会的。作为以牙还牙的游戏者，信誉会促使你的对手与你合作，知道他们这样做后，你也会选择合作。如果他们不合作，你也不合作。

奈何，如此一来，事情变得更为复杂。仅仅因为以牙还牙的策略赢得艾克斯的比赛，这并不意味着它在现实世界中是最佳策略。首先，在肉搏战中和其他策略相比，它很少能赢；总体来说，它做得很好（因为采用以牙还牙策略击败对手，和其他策略相比，对手也要损失惨重）。诺瓦克在会议上，探讨以牙还牙策略在广泛背景下的细微差别，乍看，以牙还牙的成功似乎否定了纳什均衡理论，暗示最佳策略就是一直背叛。进化博弈论的数学基础是分析无限多的群体数量，似乎证实了那种以牙还牙的策略。然而，诺瓦克指出，对于一个现实的有限的群体，在一定的情况下，你可以证明以牙还牙的策略能够成功侵犯所有具有背叛行为的种群。但是如果游戏继续，你一直计算下一步会发生什么，这样会变得更复杂。以牙还牙采取的是不原谅策略——如果你的对手本来打算合作，但是由于意外他背叛了你，于是你开始背叛他，并终止合作。如果你能计算出博弈中将会发生什么，那么你会发现以牙还牙策略并不是很成功，而改进后的策略，即宽宏大量的以牙还牙策略则比改进前要好很多。所以宽宏大量的以牙还牙策略被用来管理种群中的事务。“宽宏大量的以牙还牙策略以合作开始。无论你什么时候开始合作，我都会采取合作的方式。有时即使你背叛我，我也会和你合作”，诺瓦克补充道。“这允许我们为自己犯下的错误进行改正——如果是不小心犯下的错误，你有机会改正它。”诺瓦克说，随着游戏的继续进行，情况变得更让人吃惊。宽宏大量的以牙还牙的方法开始被全部合作的方法代替！“因为如果每个人都采用宽宏大量的以牙还牙的策略，或者以牙还牙策略，那么没有人会故意的试图背叛；即每个人都是合作者。”啊，多么快乐的时光啊！

“一直合作”不是一个稳定的策略。一旦每个人都合作，那么一直背叛策略就会入侵，就像一头鹰出现在一群鸽子身边，那么鸽子会灭亡。所以你开始选择全部背叛，然后转向以牙还牙，接着是宽宏大量的以牙还牙，接着是合作，然后再全部背叛。“这，”诺瓦克说，“就是人类的战争与和平的理论”。

利他主义与合作形成的另一种解释

尽管如此，人类还是会合作。如果间接互惠不是合作的原因，那么什么是呢？后来，一种流行的看法是由于害怕受到惩罚的威胁，所以合作才会兴起。并且博弈论证明了这种情况是如何产生的。经济学家萨缪尔·鲍尔斯、赫伯特·金迪斯，以及人类学者罗伯特·博依德是这一观点的倡导者。他们称该观点为“强互惠”。一个强互惠者奖励合作者，同时惩罚背叛者。在这种情况下，一个比较复杂的游戏描述了相互作用。不像玩囚徒困境游戏——一系列的一对一对抗——强互惠博弈研究者在不同的公共利益下进行实验游戏。

第三章里曾描述过一系列的游戏。在这些游戏中，不同的个体会采取不同的策略——有些是自私者，有些是合作者，还有一些是互惠者。在一个典型的公共利益的游戏中，在开始时给游戏者一些“分”（以后可用真实钱收回）。在每一轮，游戏者可能捐献一些分给社会基金组织，自己留一部分。然后每个人收到一部分的社会基金。然而一个贪婪者为确保自己个人的收益最大化，什么都没捐，整个群体的结果可能更遭。利他主义者为增加整个群体的收益，会把他们自己的一些分给群体。而互惠者基于“他人捐献什么，相应地自己就捐献什么”，惩罚那些捐献很少却贪享整个群体福利的“吝啬鬼”（但是这样做的话，也惩罚了群体中的其他人，包括他们自己）。正如我们已经看到的，人类由三种类型的游戏者组成。进一步的研究表明，为什么人类种族已经演化到包含惩罚者。

在一个公共利益游戏的测试中，大部分人在一开始就捐献了大约一半的分。然而，在几轮后，捐献逐渐减少。在一个测试中，在第十轮中，将近有3/4的游戏者什么都没捐。显然地，研究者发现，人们对于那些一开始捐献很少的人很生气，为了报复，他们也减少了捐献数额，以此来惩罚每个人。也就是说，大部分游戏者变成互惠者了。但是在另一个版本的游戏中，一名研究者公布每一个游戏者的捐献数额，并恳求其他参赛者给予评价。如果捐献少的人会被嘲笑，该吝啬者在后几轮会勉强地慷慨地捐献。如果没有人批评少捐赠者，那么他后面几轮的捐献会更少。显然，羞辱会促使行为发生改善。其他的实验证明，非合作者具有被惩罚的危险。所以可能在过去的进化过程中，种群中会包括惩罚者，这样能更多地鼓励合作——而没有实施惩罚的群体被淘汰。惩罚的趋势可能因此在存活的人类种群中根深蒂固，即使惩罚者自己这样做的话也会遭受损失（“根深蒂固”可能不仅仅只在基因中遗传，一些专家认为文化将惩罚的态度延续给下一代）。当然，在人类的进化历史中，惩罚的形式可能很不明显。鲍尔斯和金迪斯已经提出惩罚的措施可能主要是放逐，使惩罚者承受相对低的代价却仍然让非合作者承受沉重的代价。他们证明，博弈论的相互作用是如何自然地引导人类社会形成3种类型的人——非合作者（免费乘车者）、合作者和惩罚者（互惠者），正如其他电脑程序模拟所说明的一样。人类种族采取的是混合策略。

然而专家仍在争论这些问题。我见过一篇文章这样认为：事实上，利他主义通过利他主义者个体的所得利益单独进行发展演化，而并非一定演化自种群的利益。这一结论基于另外一个流行的博弈游戏的模拟结果，这个游戏便是著名的最后通牒游戏，今天，它在由诸如科林·卡麦勒等科学家探索的另一个博弈论的领域——“行为博弈论”得以广泛地运用。行为博弈论专家认为，要深刻理解人类社会行为的深层原因——理解自然法则——根本上是需要知道是什么促使个体在行动。换句话说，你需要知道人们是怎么想的。现在，开展这些研究的流行做法是将博弈论、经济学、心理学和神经系统学结合起来，并以一个新的具有争议的学科即神经经济学为人们所认识。

批注：感觉这本书还是很连贯的，下一章就顺着这点转到心理学上了，摊手。

文章来源:https://blog.csdn.net/feiyu66666/article/details/135733621
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！