以直报怨以德报德 --科普时报--数字报

□ 杜鹏

前沿探索

在人类群体中，个体之间的相互作用是不可避免的，人们通常会对帮助过自己的人表现出一种友好和善意行为，而对伤害过自己的人则表现出一种敌对和敌意行为，表现出人类社会中普遍且长久存在的互惠行为。

除了人类以外，非亲属间的互惠合作行为在自然界极为普遍。雄性黑猩猩会根据同伴之前向自己提供帮助的情况来决定自身的合作程度，合作的方式有很多形式，如梳理毛发、帮忙打架、照看幼崽、发出警报、教育、交配以及分享食物。马里兰大学的威尔金森在哥斯达黎加野外的考察工作中发现，无论哪个夜晚，总会有蝙蝠找不到食物，但它们却从来不会挨饿，因为那些吃饱的蝙蝠会吐出一些血液，喂养这些同伴。同样，跨物种之间的互惠合作行为也很多，如猫鼬和大耳狐，牛椋鸟和长颈鹿、水牛，等等。

互惠是简单的平等交换。尽管这个世界充满了互惠行为，但并不是说互惠行为一定会发生。因为帮助他人要付出代价，施惠与回报之间存在时间差，这就免不了被他人欺骗的可能，导致产生较大的不确定性。

为什么要回报他人的帮助？为什么不采取欺骗的手段？对这些问题的讨论持续几十年之久。直到1971年，美国演化生物学家特里弗斯基于他在非洲对狒狒的研究，在《生物学季度评论》上发表了《互惠利他主义的演化》，讲述了囚徒困境如何表现出个体利益和集体利益之间的冲突，对生物学中重复囚徒博弈的重要性予以认可，这些问题的研究才开始走向正确的方向。

囚徒困境至今已出现了多种变形和演绎，最初于1950年美国兰德公司的梅里尔·弗勒德和梅尔文·德雷希尔拟定出相关困境的理论，后来由顾问艾伯特·塔克以囚徒方式阐述，并命名为“囚徒困境”。在特里弗斯作出理论贡献的同时或之前，已经展开了大量的研究。

在囚徒困境博弈中，如果只进行一轮博弈，每个参与人只关心一次性的收益，背叛而不是合作才是他的最优选择。如果博弈重复多次，一方面存在着未来潜在的收益，另一方面由于短期不合作，可能会遭到对手的惩罚性报复，因此在重复博弈中有可能会形成合作机制。以色列数学家、诺贝尔经济学奖获得者奥曼将此称为“无名氏定理”。它就像一些被人们口口相传民歌一样，很难找到最初的作者，并且在流传过程中添加了很多人的修饰和改造。

伴随着博弈论的发展，大量研究讨论建立合作的条件，其中最具有启发意义是阿克塞尔罗德在20世纪80年代组织的两轮计算机竞赛。

毋庸置疑，阿克塞尔罗德从计算机竞赛中得出的结论具有启发意义。但在实践中，人类和其他动物都会犯错误。即使是不常出现的错误，也可能产生破坏性的后果，这就反映出噪声在合作演化中扮演着重要的角色。

诺瓦克在阿克塞尔罗德计算机竞赛的基础上，考虑了随机性，模拟自然选择进行了新的比赛，赢家不再得到“金钱”或者“分数”，而是与其完全相同的“后代”，这样世世代代如此传递下去。结果显示，一报还一报策略没能笑在最后，宽容版一报还一报策略成为最终的赢家。

宽容版一报还一报策略是一报还一报的变种，开始选择合作，以合作的态度回报对手的合作，当遇到背叛时，以某一概率与对手合作。诺瓦克还发现，不管是一报还一报，还是宽容版一报还一报，演化下去，会变成永远合作者主导天下。此时，一旦有一个来自外部的永远背叛的恶意策略，就会迅速扩张，永远合作者无法抵抗恶意入侵，需要一报还一报进行反击。这已成为一个循环，极像盛极而衰的人类社会和各种组织。

在后续的模拟中，诺瓦克无意间发现了一个更优的策略——赢定输移：如果我们在上一轮都合作，那么我会再次合作；如果都背叛，那么我会以某一概率进行合作；如果在上一轮中采取了不同的行动，我会选择背叛。实战中，这个策略比一报还一报和宽容版一报还一报活得更长。没有永远的策略，在进化中赢定输移也会消失，但是它是在目前的模拟中发现的最能延长种群寿命的策略之一。

对于人类和一些动物来说，重复博弈对于维持合作存在的作用是毋庸置疑的。但是大量的一次性博弈或匿名博弈中的合作现象却无法通过期望将来的收益来解释。同时重复博弈的要求过于严格，对于人类利他行为的解释范围并不大。另外，在两人的重复博弈中自私者可以作出合作行为，但随着人数的增加，意外的或偶然的背叛数量提高，引起惩罚背叛者的成本升高，同时确保惩罚的协调机制和激励机制变得异常复杂，互惠机制很难实施。

（作者系中国科学院科技战略咨询研究院、中国科学院学部学科研究支撑中心研究员）