[论文解读] Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate
论文在自我反思中定义了 Degeneration-of-Thought 问题,并提出一个 Multi-Agent Debate 框架,促使发散思维并提升大语言模型的复杂推理。
Modern large language models (LLMs) like ChatGPT have shown remarkable performance on general language tasks but still struggle on complex reasoning tasks, which drives the research on cognitive behaviors of LLMs to explore human-like problem-solving strategies. Along this direction, one representative strategy is self-reflection, which asks an LLM to refine the solution with the feedback generated by itself iteratively. However, our study shows that such reflection-style methods suffer from the Degeneration-of-Thought (DoT) problem: once the LLM has established confidence in its solutions, it is unable to generate novel thoughts later through reflection even if its initial stance is incorrect. To address the DoT problem, we propose a Multi-Agent Debate (MAD) framework, in which multiple agents express their arguments in the state of "tit for tat" and a judge manages the debate process to obtain a final solution. Clearly, our MAD framework encourages divergent thinking in LLMs which would be helpful for tasks that require deep levels of contemplation. Experiment results on two challenging datasets, commonsense machine translation and counter-intuitive arithmetic reasoning, demonstrate the effectiveness of our MAD framework. Extensive analyses suggest that the adaptive break of debate and the modest level of "tit for tat" state are required for MAD to obtain good performance. Moreover, we find that LLMs might not be a fair judge if different LLMs are used for agents. Code is available at https://github.com/Skytliang/Multi-Agents-Debate.
研究动机与目标
- 在 LLM 的自我反思中定义 Degeneration-of-Thought (DoT) 问题。
- 提出 Multi-Agent Debate (MAD) 框架以促进发散的链式思考。
- 在两个挑战性任务上演示 MAD 的有效性:Common MT 和 Counter-Intuitive AR。
- 分析辩论动态与代理方平衡性如何影响 MAD 的性能。
- 表明在MAD下,具备相同骨干的 LLM 可能超过某些更强的模型。
提出的方法
- 引入一个三组件的 MAD 框架:元提示、辩论者和裁判。
- 辩论者按固定顺序使用历史记录 H 表达论点;每一轮增加新的论点。
- 裁判有判别模式(若得到解决方案则停止)和提取模式(从辩论历史中输出最终解决方案)。
- 使用自适应中断策略来决定何时停止辩论以最大化翻译质量。
- 将 MAD(主要以 GPT-3.5-Turbo 作为骨干)与基线如 Self-Reflect、Rerank、MAPS、CoT 与 Self-Consistency 进行比较。
- 在两个任务上评估:Commonsense Machine Translation (Common MT) 与 Counter-Intuitive Arithmetic Reasoning (Counter-Intuitive AR)。
实验结果
研究问题
- RQ1多代理辩论能否避免困扰 LLM 自我反思的思维退化?
- RQ2引入多个代理和裁判如何影响思维发散性与最终解的质量?
- RQ3哪些辩论动态(自适应停止、以牙还牙的分歧程度)在挑战性任务中能取得最佳效果?
- RQ4当代理使用相同骨干的 LLM 充当裁判时,是否存在偏见,影响公平性与结果?
- RQ5在需要深度沉思的翻译与推理任务上,MAD 相对于强基线的表现如何?
主要发现
- MAD 在 Common MT 和 Counter-Intuitive AR 上显著提升了相对于基线的表现。
- 在 Common MT 数据集上,结合 MAD 的 GPT-3.5-Turbo 在自动和人工评估中均可超越 GPT-4。
- 自适应辩论中断策略和适度的分歧水平(“以牙还牙”)对 MAD 的有效性非常重要。
- MAD 的结果揭示,当代理使用不同的 LLM 骨干时,裁判可能存在偏见,这质疑跨模型裁判的公平性。
- MAD 使发散性思维成为可能,有助于克服 DoT,在具有挑战性的案例中产生更准确的翻译与推理。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。