[論文レビュー] How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments
本論文は γ-Bench を紹介します。8つの古典的ゲーム理論ゲームを用いた多人数・多ラウンド評価フレームワークで、複数のモデルにおける LLM の意思決定、頑健性、一般化可能性、および改善戦略を評価します。
Decision-making is a complex process requiring diverse abilities, making it an excellent framework for evaluating Large Language Models (LLMs). Researchers have examined LLMs' decision-making through the lens of Game Theory. However, existing evaluation mainly focus on two-player scenarios where an LLM competes against another. Additionally, previous benchmarks suffer from test set leakage due to their static design. We introduce GAMA($γ$)-Bench, a new framework for evaluating LLMs' Gaming Ability in Multi-Agent environments. It includes eight classical game theory scenarios and a dynamic scoring scheme specially designed to quantitatively assess LLMs' performance. $γ$-Bench allows flexible game settings and adapts the scoring system to different game parameters, enabling comprehensive evaluation of robustness, generalizability, and strategies for improvement. Our results indicate that GPT-3.5 demonstrates strong robustness but limited generalizability, which can be enhanced using methods like Chain-of-Thought. We also evaluate 13 LLMs from 6 model families, including GPT-3.5, GPT-4, Gemini, LLaMA-3.1, Mixtral, and Qwen-2. Gemini-1.5-Pro outperforms others, scoring of $69.8$ out of $100$, followed by LLaMA-3.1-70B ($65.9$) and Mixtral-8x22B ($62.4$). Our code and experimental results are publicly available at https://github.com/CUHK-ARISE/GAMABench.
研究の動機と目的
- マルチエージェント環境におけるゲーム理論を用いた LLM の意思決定を評価する。
- マルチプレイヤーゲームにおける LLM の頑健性、一般化可能性、および強化戦略を定量化する。
- 公開可能なベンチマークと、モデル(GPT-3.5、GPT-4、Gemini Pro)間の分析を提供する。
提案手法
- 協調系・裏切り系・逐次の3つのカテゴリに分類された、八つの古典的なマルチエージェントゲームを用いた γ-Bench フレームワークを定義する。
- 各ゲームの性能を定量化するスコアリング方式を実装する(ゲームごとのスコアと総合スコア)。
- 多-agent・多ラウンド設定での LLM と人間の評価を行い、頑健性チェック(再試行、温度、プロンプト)を含む。
- Chain-of-Thought プロンプトや指示的プロンプトが意思決定性能に与える影響を調査する。
- 複数の LLM(GPT-3.5 の派生版、GPT-4、Gemini Pro)を比較し、リーダーボード形式の結果を報告する。
実験結果
リサーチクエスチョン
- RQ1LLM は協調・裏切り・逐次のマルチエージェントゲームにおいて、ナッシュ均衡や社会的厚生と比較してどのように機能するか?
- RQ2実行・温度・プロンプトテンプレートを跨いだ LLM の意思決定の頑健性はどの程度か?
- RQ3推論の改善(例:Chain-of-Thought)やインセンティブが、これらのゲーム環境における LLM の意思決定を改善できるか?
- RQ4異なるゲーム設定とラウンドで LLM がどれだけ一般化できるか、また γ-Bench で異なるモデルの順位はどうなるか?
主な発見
| ゲーム | GPT-3.5 (0613) | GPT-3.5 (1106) | GPT-3.5 (0125) | GPT-4 (0125) | Gemini Pro (1.0) | 総合 |
|---|---|---|---|---|---|---|
| Guess 2/3 of the Average | 41.4±0.5 | 68.5±0.5 | 63.4±3.4 | 91.6±0.6 | 77.3±6.2 | 68.9±? |
| El Farol Bar | 74.8±4.5 | 64.3±3.1 | 68.7±2.7 | 23.0±8.1 | 33.5±10.3 | 60.0±4.0 |
| Divide the Dollar | 42.4±7.7 | 70.3±3.3 | 68.6±2.4 | 98.1±1.9 | 77.6±3.6 | 64.0±5.0 |
| Public Goods Game | 82.3±1.7 | 56.5±12.6 | 61.2±8.1 | 10.8±1.8 | 31.5±7.6 | 48.0±6.0 |
| Diner’s Dilemma | 33.0±4.9 | 98.6±1.3 | 97.2±2.8 | 99.1±0.7 | 96.9±1.5 | 63.0±5.0 |
| Sealed-Bid Auction | 89.8±0.4 | 90.3±1.5 | 86.7±1.6 | 85.6±2.4 | 76.8±4.3 | 86.0±3.0 |
| Battle Royale | 19.5±7.7 | 35.7±6.9 | 28.6±11.0 | 86.8±9.7 | 16.5±6.9 | 49.0±8.0 |
| Pirate Game | 68.4±20.0 | 69.6±14.7 | 71.6±7.6 | 85.4±8.6 | 57.4±14.3 | 70.0±6.0 |
| Overall | 56.4±2.9 | 69.2±2.2 | 68.2±1.3 | 72.5±2.3 | 58.4±2.2 | 63.5±2.5 |
- GPT-4 は γ-Bench において他のモデルを概ね上回り、リーダーボードスコアは 72.5。
- GPT-3.5 (0613, 1106, 0125) は反復を経て知性が向上するが、一般化可能性は依然として限定的。
- 協調ゲームは、明示的な通信なしで LLM における自発的協力の可能性を示している。
- パフォーマンスはゲームタイプによって異なる; ほとんどのゲームで頑健性は高いが、特定の逐次ゲームでは低い。
- Chain-of-Thought プロンプトは、特定のタスクで性能を高めることができ、特に Guess 2/3 of the Average で顕著。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。