[論文レビュー] Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation
この論文は、LLMsを対話エージェントとして評価するための豊富で半意味論的な交渉ゲームのベンチマークを提案し、GPT-4(対GPT-3.5) がどのように交渉し、計画し、他者の嗜好を推測するか、さらには敵対的な動機づけが結果にどう影響するかを検討する。
There is an growing interest in using Large Language Models (LLMs) in multi-agent systems to tackle interactive real-world tasks that require effective collaboration and assessing complex situations. Yet, we still have a limited understanding of LLMs' communication and decision-making abilities in multi-agent setups. The fundamental task of negotiation spans many key features of communication, such as cooperation, competition, and manipulation potentials. Thus, we propose using scorable negotiation to evaluate LLMs. We create a testbed of complex multi-agent, multi-issue, and semantically rich negotiation games. To reach an agreement, agents must have strong arithmetic, inference, exploration, and planning capabilities while integrating them in a dynamic and multi-turn setup. We propose multiple metrics to rigorously quantify agents' performance and alignment with the assigned role. We provide procedures to create new games and increase games' difficulty to have an evolving benchmark. Importantly, we evaluate critical safety aspects such as the interaction dynamics between agents influenced by greedy and adversarial players. Our benchmark is highly challenging; GPT-3.5 and small models mostly fail, and GPT-4 and SoTA large models (e.g., Llama-3 70b) still underperform.
研究の動機と目的
- 複雑な交渉において対話エージェントとして機能するLLMsの評価フレームワークの必要性を喚起する。
- 難易度と意味論を調整可能な、テキストベースの多-agent・多問題交渉のテストベッドを導入する。
- 交渉された取引の中で、算術・推論・探索・計画を含むLLMの推論能力を評価する。
- 協力的、貪欲、妨害的なインセンティブ構造が交渉の結果とダイナミクスにどう影響するかを検討する。
提案手法
- 意味論的に豊かな6者・5問題の交渉ゲームを用い、秘密スコアと最小閾値を設定する。
- 基本ゲームの意味論的に等価なバリアントを作成し、LLM支援プロンプトを通じて新しいゲームを生成して、記憶化の防止と難易度の多様化を図る。
- 観察-探索-計画の明示的構造(Scratchpad)を用いたゼロショット連鎖思考 prompting でエージェントを導く。
- 完全再現可能な設定(温度0、モデルのスナップショット固定)で複数ラウンド・乱順序にわたりGPT-4とGPT-3.5を評価する。
- 最終成功率・任意成功率、個人スコア対集団スコア、誤取引の発生などの指標で性能を定量化する。
実験結果
リサーチクエスチョン
- RQ1ファインチューニングなしで、特にGPT-4を含むLLMsは、複雑な多者・多問題設定で交渉し、実現可能な取引に到達できるか。
- RQ2他者の嗜好を推測し、計画する能力が交渉結果にどう影響するか。
- RQ3敵対的インセンティブ(貪欲または妨害的なプレイヤー)がおよぶ集団ダイナミクスと成功合意に与える影響。
- RQ4これらの交渉行動は、新しく意味論的に変更されたゲームへどの程度一般化するか。
主な発見
- GPT-4 with best prompting achieves high final success in base cooperative games (81% for 5/6-way deals, 33% for 6-way), with a low incidence of invalid deals (1.4%).
- GPT-4 shows strong generalization to newly generated or rewritten games, maintaining competitive final-success rates across variations.
- GPT-3.5 lags behind GPT-4 across the same prompting strategies, with significantly more wrong deals and lower successful negotiation rates.
- In all-in cooperative settings, adding a greedy or sabotaging agent reduces final-success rates (e.g., All in - one greedy yields 57% final success, 30% 6-way).
- Agents can infer others’ preferences to a notable degree (GPT-4 correctly matched ground-truth preferences 61% vs GPT-3.5’s 42%).
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。