我记得高中的时候, 我和同学聊起过这个囚徒困境游戏的一个改版, 以及他看到的一些模型模拟的统计数据, 但我不知道这些数据是他从哪里看到的:
我们先从一个最简单的改版开始看起: 这里借用我们当时使用的数值: 两人一起玩n回合, 每回合给出两个选项 "投币(Y)" 或 "不投(N)" 中的一个. 如果自己选择投币, 则自己会失去1个硬币, 但对方会获得3个硬币; 如果自己选择不投, 则不造成任何影响. 每回合中自己秘密选择后, 揭示双方的选择, 结算硬币的增减, 然后进行下一回合...重复直到玩完n个回合.
显然, 如果我们把价值定义为 "游戏结束时自己与对方的硬币之差" , Y是一个没有任何意义的纯亏选项, 所以我们把价值定义为 "游戏结束时自己硬币的增加量" .
如果n=1, 即只进行一次博弈, 这就是一个典型的囚徒困境: 由于自己硬币增减的结果是对方与自己选择结果的叠加, 无论对方的选择如何, 自己选择Y都是纯亏, 所以人人都会选择N.
下面我们考虑n>1的情况. 既然我们把价值定义为 "游戏结束时自己硬币的增加量" , 而不在乎自己让对方赚了多少 (即这不是一个零和游戏) , 那么在开头的几个回合适当地选择Y, 投币释放善意, 有可能使得对方也愿意向我们释放善意, 从而在足够多的回合里达成双方都投币即+2/+2的 "双赢" 结局. 上一段中关于每个人都会永远选择N的论证似乎并不成立.
然而, 我们来看下面这个论证: 对于某个n>1的n, 考虑最后一轮: 无论我们这一轮的选项如何, 都不会影响对方接下来的行为 (因为已经没有后续的回合了) , 也就不会产生除了 选项本身在第n回合带来的得失 之外的影响. 假如只考虑这个得失本身, Y依然是一个纯亏的选项. 为了先讨论最简单的情况, 在此我们暂且假定双方都绝对理性且绝对利己 (在博弈论中这是一个典型的理性假设, 无关乎任何道德判断或正义判断) , 因此双方玩家在第n回合一定会不约而同地选择N, 并且知道对方会选择N, 并且知道对方知道自己会选择N... (重复直到无穷层) . 然而, 由于第n回合双方的选择都昭然若揭, 在第n-1回合中, 选择看似善良的Y实际上也没有任何收益! 因此双方都会在第n-1回合选择N, 并且都知道对方也能推理出这一层......根据简单的数学归纳法可以得出: 每一方都会在这n个回合的每一个回合中选择N不投币, 从而依然陷入绝对的双输.
感性一点地说, 即使我们把价值定义为 "游戏结束时自己硬币数的改变量" 而非双方硬币数之差 (从而双赢是有可能的) , 即使是在多次重复博弈 (从而双方看似有充足的机会建立对彼此的信任) 中, 对于两个绝对理性且绝对利己的人来说, 囚徒困境的诅咒依然存在, 完备的推理能力并没有将我们引领向合作共赢的局面.
接下来这个改版是我和同学主要讨论的:
想象在一个巨大的赌场里有若干个玩家, 每个人要事先选定一种策略 (设计一个算法) , 这种算法会在一局如上所述的n回合游戏中帮你自动在每一回合中选择Y或N. 可以看作算法的输出是一个长为n的Y/N序列, 而输出这个序列中的第i位时, 所能依赖的外部输入仅有对方在前i-1个回合中的选择. 例如有如下几种常见的策略:
- "绝对不信任" : 输出n个N (无论对方的选择如何, 每回合都不投币) ;
- "绝对信任" : 输出n个Y (无论对方的选择如何, 每回合都投币) ;
- "保守的不信任" : 在第一回合输出N, 此后如果对方上回合输出Y就输出Y, 如果对方上回合输出N就输出N (我对你不好, 如果你对我好, 我就对你好) ;
- "保守的信任" : 在第一回合输出Y, 此后如果对方上回合输出Y就输出Y, 如果对方上回合输出N就输出N (我对你好, 但如果你对我不好, 我就对你不好) ;
- "允许纠错的信任" : 在第一, 二回合输出Y, 此后如果对方前两个回合连续输出两次N, 就输出N, 否则就输出Y (增加自己的包容性以免失去一些谨慎的合作对象) ;
- "有阈值的信任" : 如果自己目前的硬币增加量大于一个特定的负整数, 就输出Y, 否则输出N (当对方让自己亏到一定程度后, 失去对对方可合作的信任)
- ......
在进入赌场之前, 每位玩家选定一个策略, 并且此后不能再改动. 进入赌场后, 所有玩家随机两两匹配玩一局这个n回合的游戏, 并计算硬币的盈亏. 结束后重新随机匹配, 每位玩家再和自己的新对手玩一局这个n回合的游戏......重复直到每个人都玩了m据游戏, 计算各玩家总共的盈亏, 依然将价值定义为 "自己硬币的增加量" .
(玩家设计的算法本身是否能涉及随机因素, 对应着这个模型的两个版本, 在此不作严格的区别. 允许随机算法的模型下, 会出现一些新的策略, 比如 "乐子人" : 每回合独立地以1/2的概率选择Y, 以1/2的概率选择N)
现在考虑一个问题: 在这个游戏里, 依然假定所有玩家绝对理性且绝对利己, 那么绝对不信任是否依然是某种意义上的最优策略? 不那么抽象地说: 如果你要参与这样一场宏伟的赌局, 你是否会在踏进赌场前选择上述策略中的 "绝对不信任 (永远只投N)" , 并坚信m局游戏结束后自己就会是收获硬币最多的人或居于前列?
答案显然不太像是肯定的: 如果赌场的其余玩家处在一种大家彼此信任但又有一些警惕的文化中, 那么你很可能一路亏到最后. 假设除了你以外的所有其它玩家都选择了策略 "保守的信任" , 那么赌局结束之时他们自己可以靠合作赚得盆满钵满 (顶多会有几个匹配到你的倒霉鬼少赚一点) , 而小丑的只有你自己.
我不知道研究这个问题的人作了多少理论推导, 关于到底哪种策略最优, 或者策略之间的克制关系得到了怎样的结论, 毕竟模型的定义中涉及 "随机匹配" , 使得定量分析看上去很不现实 (如果定义为全部k个玩家两两之间玩一次或许会更能够分析) . 据我的同学所说, 一些对这个问题感兴趣的程序员设计了一大堆看上去比较自然的 "策略" , 然后把它们丢进程序里大乱斗, 并收集了一大堆各种构成比例下的赌场里, 采取各种策略的人盈亏如何的数据. 数据本身非常繁琐且没有什么理论意义, 但结论至少支持了一点: 无脑不投币并不会让你赚得最多, 甚至在所有策略中收益均值是吊车位的那一批.
但另一个进一步的改版下得到的结论 (在我看来) 就有意思的多:
这些程序员还做了另外一个改动: 预先给定一个[0,1/2]之间的常数p, 在每一局的每一个回合, 在你的策略选择Y或N后, 有p的概率你的策略会变成另一个, 1-p的概率保持不变, 且每一局每一回合每个玩家的选择是否发生变动是独立的 (显然考虑大于1/2的p是没有意义的, 因为你只要在设计算法时将输出完全翻转就可以划归到p∈[0,1/2]的情况) . 形象一点地说, 某种 (希腊神话悲剧式的) 因素存在于这个自然法则的丛林之中, 使得即使你的本意是释放善意, 也有一定的几率你会不小心做出相反的行为, 导向相反的结果.
我不知道程序员们又设计了什么策略, 跑了多少组数据, 但据我的同学说, 当p增加, 即双方的意图更有可能被误解, "好心办坏事" 的时候, 偏向不信任的策略的收益均值在明显增加. p越大, 包括 "绝对不信任" 在内的一系列不信任策略就越容易排到硬币增加量排行榜上的前面. 特别地, 当p=1/2, 策略的选择不再有意义, 因为显然所有的策略都会被曲解为1/2投币, 1/2不投的 "乐子人" .
我和我的同学没有对这个问题作更深入严谨的讨论, 毕竟高中生课间的闲聊中放松解闷的成分多于严谨的科学研究. 所以我上面这些结论也没有参考文献, 完全有可能我记错了我同学的原话, 或者我同学口胡了一部分. 但不管上文给出的数据是否真实, 是否足以支持一些看起来很 "道德判断" 的社会学结论, 我都觉得想到这几个变种的博弈模型都非常有意思, 也能引发一点思考, 所以在这个贴子里借楼分享给茶友们.