[论文解读] Playing repeated games with Large Language Models
该论文研究 GPT-3、GPT-3.5 和 GPT-4 在有限重复的 2x2 博弈中的行为,揭示 Prisoner’s Dilemma 式设置中的强自利,以及在 Battle of the Sexes 中的协同能力不足,且结果在各项测试和提示下均具鲁棒性。它还表明,让 GPT-4 预测对手或承认自身可能出错的提示可以改善协作与合作。
LLMs are increasingly used in applications where they interact with humans and other agents. We propose to use behavioural game theory to study LLM's cooperation and coordination behaviour. We let different LLMs play finitely repeated $2 imes2$ games with each other, with human-like strategies, and actual human players. Our results show that LLMs perform particularly well at self-interested games like the iterated Prisoner's Dilemma family. However, they behave sub-optimally in games that require coordination, like the Battle of the Sexes. We verify that these behavioural signatures are stable across robustness checks. We additionally show how GPT-4's behaviour can be modulated by providing additional information about its opponent and by using a "social chain-of-thought" (SCoT) strategy. This also leads to better scores and more successful coordination when interacting with human players. These results enrich our understanding of LLM's social behaviour and pave the way for a behavioural game theory for machines.
研究动机与目标
- 以受控、互动的环境,使用行为博弈论激发对 LLMs 社会行为的研究。
- 描述在经典的 2x2 博弈家族中 LLM 的表现,聚焦于合作与协调。
- 在迭代互动中识别 LLM 的行为特征,并测试跨提示与收益表述的鲁棒性。
- 探索简单干预(预测对手、承认易犯错性)以改善 LLM 的协调。
提出的方法
- 两种 LLM 通过提示链进行互动,在每种 2x2 博弈中进行 10 轮,信息齐全。
- 使用 GPT-3、GPT-3.5 和 GPT-4 评估跨家族的 144 种不同的 2x2 博弈(双赢、囚徒困境、偏向、循环、不公平、次优)。
实验结果
研究问题
- RQ1LLMs 是否在不同的 2x2 博弈家族中体现出合作还是以自我为中心的行为?
- RQ2LLMs 是否能够在如 Battle of the Sexes 这样的经典协调博弈中实现协调?
- RQ3LLMs 的行为如何依赖于模型规模(GPT-3、GPT-3.5、GPT-4)以及提示的变体?
- RQ4干预措施(如预测对手、假设对手会犯错)能否调节 LLM 的社会行为?
- RQ5观察到的行为是否对框架、收益表示和提示顺序具有鲁棒性?
主要发现
- LLMs 在强调自我利益的博弈中通常表现良好,特别是在囚徒困境家族中。
- LLMs 在以协调为重的博弈如 Battle of the Sexes 中表现不理想。
- GPT-4 在囚徒困境情境中,在任何先前背叛后都会不再合作,表现出难以原谅的背叛。
- GPT-4 在面对交替行动的对手时未能交替回应,表明协调方面存在挑战。
- 提示 GPT-4 预测对方行动可以提高其协调和交替行为的能力。
- 说明对手可能犯错可以在多轮中恢复 GPT-4 的合作。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。