一个简单的博弈问题

ZeQueenX

现在有两种动物，分别是老虎和兔子。老虎遇见老虎无事发生；老虎遇见兔子，老虎加十分，兔子扣十分；兔子遇见兔子，两只兔子都加五分。假设大家会随机的、不停的遇见其他动物，你会选择何种动物？假设最重要的目标就是获得更高的分数。

OYBDOOO

这不是博弈问题，这是社会科学问题🤪

小时候我会选择兔子，长大后我会选择老虎。

alexzeng

So I think your game is set intentionally to make people to be tigers. In fact, when two tigers meet, they should both -5, that would be more balance of rabbits and tigers in your game.

And when set to this, unfortunately, people should be tiger also......

So maybe I should agree with OOOO's sociological thought, in your simple model of real situation.

ZeQueenX

Carl 有道理，我之后思考一下模型怎么改更合理。不过我觉得如果所有人都选老虎的话，意味着大家都得不到分。这样也不符合尽可能获得最高分的目标。

chris-Li

ZeQueen 你的问题就是一个经典的囚徒困境，没有修改的必要。纳什均衡就是全狮子，但是社会的最优解是全兔子，这已经超出了个人理性的范畴了。这也是为什么这个模型对于社会学非常重要的原因。

chris-Li

任何一个理性的回答者都会选择狮子，但是我仍然选择了兔子，因为这才是希望所在

AwuAwu

下面是安卓游戏［信任的进化］的尾声：

博弈论向我们揭示了要发展信任人们所需要掌握的三件事:

1.重复的互动
信任是保持人际关系长久的基石，但信任能够建立的前提，是你要知道你们未来会有重复的互动。

2.「双赢」并非不可能
你必须进行非零和游戏，而在这样的游戏博弈中，并不要求两个玩家都会变得更好，达到双赢，但至少必须要有达成双赢的可能性。

3.低概率的误解
如果误解发生得过多，信任就会瓦解。但是，如果有一点点误会的时候，它将使宽容蔓延开来。

现实世界里的信任会受到更多因素的影响。比如，名誉、共同值观、合同、文化传统等等等等。然而，我们别忘了…

如果说要从博弈论浩瀚的海洋里面选出一枚最闪亮的珍宝为我们所用，那就是这个:

游戏是什么，直接决定了玩家做什么。
我门今天的问题并不仅仅是人们正在失去信任，而是我们的环境正在违背信任进化的规律。

「我们仅仅是我们周遭环境的产物」，这个观念可能看起来可能有点天真无邪，但是博弈论也在提醒着，我们就是彼此的环境啊。短期来讲游戏决定玩家，但是长期来说，决定游戏的正是我们这些玩家。

所以，我们每个人都行动起来，做你力所能及的，去创造一个可以让信任进化的条件。建立人际关系、努力寻求双赢、沟通尽量清晰。或许到寸候，我们能够停止向对方开火，走出各自的战壕，穿过战争的无人地带来，到彼此面前…

所以说，何必纠结这个游戏下反映的人性，人人都需要博弈的能力来自保，但我们本身也是制定游戏规则的人，我们可以逐渐制造更适合合作精神的游戏规则，让人们仅仅是为了利己就选择利他。

Eastwind

我记得高中的时候, 我和同学聊起过这个囚徒困境游戏的一个改版, 以及他看到的一些模型模拟的统计数据, 但我不知道这些数据是他从哪里看到的:

我们先从一个最简单的改版开始看起: 这里借用我们当时使用的数值: 两人一起玩n回合, 每回合给出两个选项 "投币(Y)" 或 "不投(N)" 中的一个. 如果自己选择投币, 则自己会失去1个硬币, 但对方会获得3个硬币; 如果自己选择不投, 则不造成任何影响. 每回合中自己秘密选择后, 揭示双方的选择, 结算硬币的增减, 然后进行下一回合...重复直到玩完n个回合.
显然, 如果我们把价值定义为 "游戏结束时自己与对方的硬币之差" , Y是一个没有任何意义的纯亏选项, 所以我们把价值定义为 "游戏结束时自己硬币的增加量" .
如果n=1, 即只进行一次博弈, 这就是一个典型的囚徒困境: 由于自己硬币增减的结果是对方与自己选择结果的叠加, 无论对方的选择如何, 自己选择Y都是纯亏, 所以人人都会选择N.
下面我们考虑n>1的情况. 既然我们把价值定义为 "游戏结束时自己硬币的增加量" , 而不在乎自己让对方赚了多少 (即这不是一个零和游戏) , 那么在开头的几个回合适当地选择Y, 投币释放善意, 有可能使得对方也愿意向我们释放善意, 从而在足够多的回合里达成双方都投币即+2/+2的 "双赢" 结局. 上一段中关于每个人都会永远选择N的论证似乎并不成立.
然而, 我们来看下面这个论证: 对于某个n>1的n, 考虑最后一轮: 无论我们这一轮的选项如何, 都不会影响对方接下来的行为 (因为已经没有后续的回合了) , 也就不会产生除了选项本身在第n回合带来的得失之外的影响. 假如只考虑这个得失本身, Y依然是一个纯亏的选项. 为了先讨论最简单的情况, 在此我们暂且假定双方都绝对理性且绝对利己 (在博弈论中这是一个典型的理性假设, 无关乎任何道德判断或正义判断) , 因此双方玩家在第n回合一定会不约而同地选择N, 并且知道对方会选择N, 并且知道对方知道自己会选择N... (重复直到无穷层) . 然而, 由于第n回合双方的选择都昭然若揭, 在第n-1回合中, 选择看似善良的Y实际上也没有任何收益! 因此双方都会在第n-1回合选择N, 并且都知道对方也能推理出这一层......根据简单的数学归纳法可以得出: 每一方都会在这n个回合的每一个回合中选择N不投币, 从而依然陷入绝对的双输.
感性一点地说, 即使我们把价值定义为 "游戏结束时自己硬币数的改变量" 而非双方硬币数之差 (从而双赢是有可能的) , 即使是在多次重复博弈 (从而双方看似有充足的机会建立对彼此的信任) 中, 对于两个绝对理性且绝对利己的人来说, 囚徒困境的诅咒依然存在, 完备的推理能力并没有将我们引领向合作共赢的局面.

接下来这个改版是我和同学主要讨论的:
想象在一个巨大的赌场里有若干个玩家, 每个人要事先选定一种策略 (设计一个算法) , 这种算法会在一局如上所述的n回合游戏中帮你自动在每一回合中选择Y或N. 可以看作算法的输出是一个长为n的Y/N序列, 而输出这个序列中的第i位时, 所能依赖的外部输入仅有对方在前i-1个回合中的选择. 例如有如下几种常见的策略:

"绝对不信任" : 输出n个N (无论对方的选择如何, 每回合都不投币) ;
"绝对信任" : 输出n个Y (无论对方的选择如何, 每回合都投币) ;
"保守的不信任" : 在第一回合输出N, 此后如果对方上回合输出Y就输出Y, 如果对方上回合输出N就输出N (我对你不好, 如果你对我好, 我就对你好) ;
"保守的信任" : 在第一回合输出Y, 此后如果对方上回合输出Y就输出Y, 如果对方上回合输出N就输出N (我对你好, 但如果你对我不好, 我就对你不好) ;
"允许纠错的信任" : 在第一, 二回合输出Y, 此后如果对方前两个回合连续输出两次N, 就输出N, 否则就输出Y (增加自己的包容性以免失去一些谨慎的合作对象) ;
"有阈值的信任" : 如果自己目前的硬币增加量大于一个特定的负整数, 就输出Y, 否则输出N (当对方让自己亏到一定程度后, 失去对对方可合作的信任)
......

在进入赌场之前, 每位玩家选定一个策略, 并且此后不能再改动. 进入赌场后, 所有玩家随机两两匹配玩一局这个n回合的游戏, 并计算硬币的盈亏. 结束后重新随机匹配, 每位玩家再和自己的新对手玩一局这个n回合的游戏......重复直到每个人都玩了m据游戏, 计算各玩家总共的盈亏, 依然将价值定义为 "自己硬币的增加量" .
(玩家设计的算法本身是否能涉及随机因素, 对应着这个模型的两个版本, 在此不作严格的区别. 允许随机算法的模型下, 会出现一些新的策略, 比如 "乐子人" : 每回合独立地以1/2的概率选择Y, 以1/2的概率选择N)
现在考虑一个问题: 在这个游戏里, 依然假定所有玩家绝对理性且绝对利己, 那么绝对不信任是否依然是某种意义上的最优策略? 不那么抽象地说: 如果你要参与这样一场宏伟的赌局, 你是否会在踏进赌场前选择上述策略中的 "绝对不信任 (永远只投N)" , 并坚信m局游戏结束后自己就会是收获硬币最多的人或居于前列?
答案显然不太像是肯定的: 如果赌场的其余玩家处在一种大家彼此信任但又有一些警惕的文化中, 那么你很可能一路亏到最后. 假设除了你以外的所有其它玩家都选择了策略 "保守的信任" , 那么赌局结束之时他们自己可以靠合作赚得盆满钵满 (顶多会有几个匹配到你的倒霉鬼少赚一点) , 而小丑的只有你自己.
我不知道研究这个问题的人作了多少理论推导, 关于到底哪种策略最优, 或者策略之间的克制关系得到了怎样的结论, 毕竟模型的定义中涉及 "随机匹配" , 使得定量分析看上去很不现实 (如果定义为全部k个玩家两两之间玩一次或许会更能够分析) . 据我的同学所说, 一些对这个问题感兴趣的程序员设计了一大堆看上去比较自然的 "策略" , 然后把它们丢进程序里大乱斗, 并收集了一大堆各种构成比例下的赌场里, 采取各种策略的人盈亏如何的数据. 数据本身非常繁琐且没有什么理论意义, 但结论至少支持了一点: 无脑不投币并不会让你赚得最多, 甚至在所有策略中收益均值是吊车位的那一批.

但另一个进一步的改版下得到的结论 (在我看来) 就有意思的多:
这些程序员还做了另外一个改动: 预先给定一个[0,1/2]之间的常数p, 在每一局的每一个回合, 在你的策略选择Y或N后, 有p的概率你的策略会变成另一个, 1-p的概率保持不变, 且每一局每一回合每个玩家的选择是否发生变动是独立的 (显然考虑大于1/2的p是没有意义的, 因为你只要在设计算法时将输出完全翻转就可以划归到p∈[0,1/2]的情况) . 形象一点地说, 某种 (希腊神话悲剧式的) 因素存在于这个自然法则的丛林之中, 使得即使你的本意是释放善意, 也有一定的几率你会不小心做出相反的行为, 导向相反的结果.
我不知道程序员们又设计了什么策略, 跑了多少组数据, 但据我的同学说, 当p增加, 即双方的意图更有可能被误解, "好心办坏事" 的时候, 偏向不信任的策略的收益均值在明显增加. p越大, 包括 "绝对不信任" 在内的一系列不信任策略就越容易排到硬币增加量排行榜上的前面. 特别地, 当p=1/2, 策略的选择不再有意义, 因为显然所有的策略都会被曲解为1/2投币, 1/2不投的 "乐子人" .

我和我的同学没有对这个问题作更深入严谨的讨论, 毕竟高中生课间的闲聊中放松解闷的成分多于严谨的科学研究. 所以我上面这些结论也没有参考文献, 完全有可能我记错了我同学的原话, 或者我同学口胡了一部分. 但不管上文给出的数据是否真实, 是否足以支持一些看起来很 "道德判断" 的社会学结论, 我都觉得想到这几个变种的博弈模型都非常有意思, 也能引发一点思考, 所以在这个贴子里借楼分享给茶友们.

Eastwind

顺便, 我个人很反对在考虑一些博弈论的问题时, 率先把道德, 价值观, 社会学判断这些事情纳入进来考虑, 或者刚得到一些中间结果就想着把它们翻译成社会学的 "对应的" 论断. 即使是除开牵强附会到人文科学上, 带来一些所谓的 "对数学结论的人文思考" 以哗众取宠这方面的厌恶因素, 我也认为不要过快地因为在数学中得出了一些结论, 或者在数学讨论中为简化模型所采取了一些极端假设, 就马上认为我们在社会中处事时也采用了/应当采用相同的态度. 研究问题总是由浅入深, 先简后繁的. 我们采取 "所有人总是绝对理性且绝对利己" 这类假设, 不是因为我们真的悲观到相信当今人类社会悲凉到人人都是精致的利己主义者, 或者冷漠到认为自己应该这么做, 而是做这样的数学假设, 能在模型一定程度上贴近现实的前提下, 让我们研究问题先更简单, 更好下手.

AwuAwu

Eastwind 你这个策略好像对应的就是［信任的进化］里的每一个策略了。我猜你的高中同学可能玩过这个游戏。

alexzeng

Eastwind
this model maybe categoried as 完全信息-序列-动态博弈-禁止结盟

you update version of the model is very good, but here we have another kind of update: you can negotiate with other players and set some agreement with players before the round end and you finally choose the decision

long story short, 允许商量-结盟-玩家之间可以讨论

variation: even you can sign a formal agreement with some of (/all) the players

more short, 允许私通, actually, it reminds me of our saying when playing three country battle, “私通白将”