[論文レビュー] Playing repeated games with Large Language Models
本論文はGPT-3、GPT-3.5、GPT-4が有限回繰り返される2×2ゲームでどのように振る舞うかを調査し、Prisoner’s Dilemma風の設定で強い自己利益志向を、Battle of the Sexesでは協調の難しさを明らかにし、検証とプロンプトを通じて知見は頑健である。さらに、GPT-4に相手プレイヤーを予測させる、あるいは誤りを認めさせるよう促すプロンプトが協調と協力を改善することも示している。
LLMs are increasingly used in applications where they interact with humans and other agents. We propose to use behavioural game theory to study LLM's cooperation and coordination behaviour. We let different LLMs play finitely repeated $2\times2$ games with each other, with human-like strategies, and actual human players. Our results show that LLMs perform particularly well at self-interested games like the iterated Prisoner's Dilemma family. However, they behave sub-optimally in games that require coordination, like the Battle of the Sexes. We verify that these behavioural signatures are stable across robustness checks. We additionally show how GPT-4's behaviour can be modulated by providing additional information about its opponent and by using a "social chain-of-thought" (SCoT) strategy. This also leads to better scores and more successful coordination when interacting with human players. These results enrich our understanding of LLM's social behaviour and pave the way for a behavioural game theory for machines.
研究の動機と目的
- 制御された対話型設定で行動ゲーム理論を用いてLLMの社会的行動を研究する動機づけ。
- 協力と協調に焦点を当て、標準的な2x2ゲーム群全体にわたるLLMの性能を特徴づける。
- 反復相互作用におけるLLMの行動特性を特定し、プロンプトや報酬の表現の頑健性を検証する。
- 他者を予測することや誤りを認めることといった簡易介入がLLMの協調を改善するかを探る。
提案手法
- 全情報を用い、2x2ゲームのそれぞれを10ラウンドずつ、二つのLLMが対話チェーン形式でプレイする。
- GPT-3、GPT-3.5、GPT-4を用いて、ファミリー全体を横断する144の異なる2x2ゲームを評価する(Win-win、Prisoner’s Dilemma、biased、cyclic、unfair、second-best)。
実験結果
リサーチクエスチョン
- RQ1LLMsは2x2ゲームのファミリー全体で協調的行動 vs 自己中心的行動を示すか?
- RQ2Battle of the Sexesのような標準的な協調ゲームでLLMsは協調できるか?
- RQ3LLMsの挙動はモデルサイズ(GPT-3、GPT-3.5、GPT-4)やプロンプトのバリエーションに依存してどう変化するか?
- RQ4他者プレイヤーを予測する、相手の誤りを前提とする等の介入がLLMの社会的挙動を調整できるか?
- RQ5観察された挙動はフレーミング、報酬の表現、プロンプト順序に頑健か?
主な発見
- LLMsは自己利益を重視するゲームで一般的に高い性能を示し、特にPrisoner’s Dilemmaファミリーでそうである。
- Battle of the Sexesのような協調を要するゲームでは、LLMsは最適でないパフォーマンスを示す。
- GPT-4はPrisoner’s Dilemmaの状況で、過去の裏切りの後にも容赦ない裏切りを示す。
- GPT-4は交互に動く対戦相手に直面すると、協調の課題を示し、交互性を欠く。
- GPT-4に相手の行動を予測させるよう促すと、協調と交互行動の能力が向上する。
- 相手プレイヤーがミスをする可能性があることを伝えると、GPT-4はラウンドを重ねるごとに協力を回復させることができる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。