[论文解读] Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation
本文提出一个丰富、半语义的谈判游戏基准,用于评估作为交互式代理的LLM,并研究GPT-4(相较于GPT-3.5)如何谈判、计划和推断他人偏好,包括对结果的对抗性激励如何影响。
There is an growing interest in using Large Language Models (LLMs) in multi-agent systems to tackle interactive real-world tasks that require effective collaboration and assessing complex situations. Yet, we still have a limited understanding of LLMs' communication and decision-making abilities in multi-agent setups. The fundamental task of negotiation spans many key features of communication, such as cooperation, competition, and manipulation potentials. Thus, we propose using scorable negotiation to evaluate LLMs. We create a testbed of complex multi-agent, multi-issue, and semantically rich negotiation games. To reach an agreement, agents must have strong arithmetic, inference, exploration, and planning capabilities while integrating them in a dynamic and multi-turn setup. We propose multiple metrics to rigorously quantify agents' performance and alignment with the assigned role. We provide procedures to create new games and increase games' difficulty to have an evolving benchmark. Importantly, we evaluate critical safety aspects such as the interaction dynamics between agents influenced by greedy and adversarial players. Our benchmark is highly challenging; GPT-3.5 and small models mostly fail, and GPT-4 and SoTA large models (e.g., Llama-3 70b) still underperform.
研究动机与目标
- 需要评估框架来衡量在复杂谈判中作为交互式代理的LLMs;
- 引入一个基于文本、多代理、多议题的谈判测试环境,具有可调难度与语义性;
- 评估LLMs的推理能力,包括算术、推断、探索与在谈判交易中的计划;
- 考察不同激励结构(合作、贪婪、破坏性)对谈判结果与动态的影响。
提出的方法
- 采用一个语义丰富的六方、五议题的谈判游戏,包含秘密分数与最低阈值;
- 在基准游戏之上创建语义等价的变体,并通过LLM辅助提示生成新游戏,以确保非记忆化和难度多样性;
- 使用零-shot Chain-of-Thought 提示,采用明确的观察-探索-规划结构(Scratchpad)来引导代理;
- 在多轮与随机顺序下评估 GPT-4 和 GPT-3.5,具有完全可复现的设置(温度0,固定模型快照)。
- 用包括最终成功率、任何成功率、个人分数与集体分数、以及错误交易发生率等指标来量化表现。
实验结果
研究问题
- RQ1LLMs,尤其是 GPT-4,是否能够在一个复杂的多方、多议题环境中在不进行微调的情况下谈判并达成可行交易?
- RQ2 Infer 他人偏好与计划的能力如何影响谈判结果?
- RQ3对抗性激励(贪婪或破坏性玩家)对群体动态和达成有效协议的影响?
- RQ4这些谈判行为在新颖、语义上改变的游戏中能多大程度地泛化?
主要发现
- GPT-4 通过最佳提示在基础合作游戏中实现很高的最终成功率(5/6方交易81%,6方交易33%),无效交易发生率低(1.4%)。
- GPT-4 对新生成或改写的游戏显示出强泛化能力,在变体中保持竞争性的最终成功率。
- 在相同提示策略下,GPT-3.5 落后于 GPT-4,存在更多错误交易与较低的谈判成功率。
- 在全合作情境中,加入贪婪或破坏代理会降低最终成功率(例如 All in - 一个贪婪者导致最终成功率57%,6方为30%)。
- 代理能够在相当程度上推断他人偏好(GPT-4 将基准偏好正确匹配率为61%,而 GPT-3.5为42%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。