2019年06月14日 星期五
多人“囚徒困境”竞赛分析

    阿克塞尔罗德邀请了大量的博弈理论家和熟悉囚徒困境博弈的研究人员,让他们为多人囚徒困境竞赛提供方案。竞赛是循环进行的,即每一个参赛程序都要与它本身、其他被提交的程序和一个随机策略进行上百次囚徒困境博弈,最后排名按照收益结果进行。

    第一轮竞赛收到了14个程序,一报还一报策略取得了优胜。一报还一报策略开始选择合作,然后就选择对手上一步的行动。它是所有提交程序中最简单的,结果却是最好的。第二轮竞赛的规模大大增加,一共有6个国家的62个参赛者。第二轮参赛者都得到了有关第一轮竞赛的详细分析报告,而且知道用于分析成功的思想和概念及所发现的易犯的策略性措施。尽管如此,一报还一报策略赢得了第二轮竞赛。虽然所有的参赛者都知道一报还一报策略赢得了第一轮竞赛,但没有人能设计出一个比它更好的程序。

    阿克塞尔罗德分析了不同条件下什么样的策略会起作用和为什么这些策略能表现得好,并将相关的研究成果写入了《合作的进化》一书中。对于重复囚徒困境中应如何表现提出了四个建议:

    ①不要嫉妒对方。在一个非零和的世界里,为了你自己做得好,没有必要非得比对方做得更好,特别是你要和不同的对手打交道更是这样。没有理由去嫉妒对方的成功,因为其他人的成功是你自己成功的前提。

    ②不要首先背叛。最初的背叛可能会引起对方的报复,并使你处于要么被欺骗要么双方背叛的两难境地。令人吃惊的是,竞赛结果表明,决定一个策略表现如何的最重要的特征是是否善良,也就是是否不首先背叛。

    ③对合作给予回报,对背叛给予惩罚。一报还一报策略超常的成功给出了一个简单而又有力的经验——回报。在第一步的合作之后,“一报还一报”策略只是简单地回报对方在上一步的行动,这个简单的规则具有惊人的鲁棒性。

    ④容易被对方理解。在重复囚徒困境博弈中,你要从对方的合作中得到好处,诀窍在于鼓励合作,一个好的方式是清楚地表明你愿意回报,更容易被对方理解的清晰行动策略会更有效,而不像零和博弈中需要表现得更复杂以便让对方误判。

京ICP备06005116