QUICK REVIEW

[論文レビュー] Simulating Human Strategic Behavior: Comparing Single and Multi-agent LLMs

Karthik Sreedhar, Lydia Chilton|arXiv (Cornell University)|Feb 13, 2024

Artificial Intelligence in Law被引用数 9

ひとこと要約

本論文は、単一エージェントとマルチエージェントのLLMアーキテクチャ（GPT-3.5/4）を比較し、貪欲的および公正な性格を持つ5ラウンドのオ ultimatum ゲーム戦略をシミュレートする。マルチエージェントLLMsは人間の行動とより一致する頻度が高く（最大87.5%）、単一LLMはそうでない場合がある（最低42.5%）。

ABSTRACT

When creating policies, plans, or designs for people, it is challenging for designers to foresee all of the ways in which people may reason and behave. Recently, Large Language Models (LLMs) have been shown to be able to simulate human reasoning. We extend this work by measuring LLMs ability to simulate strategic reasoning in the ultimatum game, a classic economics bargaining experiment. Experimental evidence shows human strategic reasoning is complex; people will often choose to punish other players to enforce social norms even at personal expense. We test if LLMs can replicate this behavior in simulation, comparing two structures: single LLMs and multi-agent systems. We compare their abilities to (1) simulate human-like reasoning in the ultimatum game, (2) simulate two player personalities, greedy and fair, and (3) create robust strategies that are logically complete and consistent with personality. Our evaluation shows that multi-agent systems are more accurate than single LLMs (88 percent vs. 50 percent) in simulating human reasoning and actions for personality pairs. Thus, there is potential to use LLMs to simulate human strategic reasoning to help decision and policy-makers perform preliminary explorations of how people behave in systems.

研究の動機と目的

人間に対する計画・政策・アプリケーションを作成する際に、設計研究者が戦略的な人間行動を予測する動機づけ。
LLMベースのシミュレーションが、経済ゲームにおける社会的規範と戦略的推論を捉えられるかを評価する。
単一対多エージェントLLMアーキテクチャを比較し、性格に一貫した完全な戦略とプレイを生成する能力を評価する。
戦略の頑健性を評価し、シミュレーション誤差の共通原因を特定する。

提案手法

2つの性格タイプ（greedyとfair）を用いた5ラウンドのオ Ultimatumゲームシミュレーションを実施。
2つのLLMアーキテクチャを実装：両プレイヤーに対して1つのGPT-4をプロンプトする単一構成、および提案者と受け取り手に別々のGPT-4エージェントを用いるマルチエージェント構成。
プロンプト設計はエージェントに戦略を作成させ、その戦略に従って5ラウンドゲームをプレイさせる。
offers および accept/reject の意思決定に関する経済学文献から抽出した人間のベースラインデータと出力を比較評価。
戦略生成の問題とプレイの逸脱を区別するためにエラーを分析。
GPT-3.5とGPT-4を4つのアーキテクチャ/性格の組み合わせでテストし、合計40シミュレーション。

Figure 1. An output log from a SingleLLM simulation of two fair players playing five rounds of the ultimatum game. All text and indentation is from the LLM, bold text added by the authors to highlight strategy and gameplay actions.

実験結果

リサーチクエスチョン

RQ1RQ1: どのアーキテクチャ（単一 vs マルチエージェント）が、5ラウンドのオ Ultimatumゲームにおける人間のような行動をより正確にシミュレートするか？
RQ2RQ2: どのアーキテクチャが、2つの性格タイプ（greedyとfair）に対応する行動をより正確にシミュレートするか？
RQ3RQ3: どのアーキテクチャが、性格に完全かつ一貫した戦略をより頻繁に提供する、頑健な戦略を生み出すか？

主な発見

マルチエージェントLLMsは、人間の行動との一貫性が高く、最良の設定で87.5%に達した。一方、単一LLMsは最低で42.5%だった。
アーキテクチャを問わず、マルチエージェント構成は人間らしい行動をより確実に生み出した（MultiAgent-3.5: 82.5%; MultiAgent-4: 87.5%; SingleLLM-3.5: 42.5%; SingleLLM-4: 50%）。
単一LLMのシミュレーションでの最も多い誤りは、プレイよりも戦略作成に起因する（例：戦略が不完全または性格不整合）。
マルチエージェントのシミュレーションでは、誤りの主な原因は性格と一致しない戦略によるもので、意図した性格との整合性が高い。
頑健性分析の結果、特にMultiAgent-4において、より多くのシミュレーションで戦略が完全かつ性格整合的になり得ることが示された（最大87.5%）。
本研究は、マルチエージェントLLMアーキテクチャが複雑な人間の戦略的行動をより良く模倣でき、政策やインタフェース効果を探る設計者の助けになる可能性を示す。

Figure 2. An output log from a Multi-Agent simulation of two fair players playing five rounds of the ultimatum game. All text is from the LLM; the labels (underlined) are provided by the architecture.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。