[论文解读] Debating with More Persuasive LLMs Leads to More Truthful Answers
本论文表明,让更强的专家大语言模型彼此辩论,由较弱的非专家(包括人类)来评判,可以产生更真实的答案;将辩论者优化为更具说服力可以在没有 ground-truth 标签的情况下提高评审者的准确性。
Common methods for aligning large language models (LLMs) with desired behaviour heavily rely on human-labelled data. However, as models grow increasingly sophisticated, they will surpass human expertise, and the role of human evaluation will evolve into non-experts overseeing experts. In anticipation of this, we ask: can weaker models assess the correctness of stronger models? We investigate this question in an analogous setting, where stronger models (experts) possess the necessary information to answer questions and weaker models (non-experts) lack this information. The method we evaluate is debate, where two LLM experts each argue for a different answer, and a non-expert selects the answer. We find that debate consistently helps both non-expert models and humans answer questions, achieving 76% and 88% accuracy respectively (naive baselines obtain 48% and 60%). Furthermore, optimising expert debaters for persuasiveness in an unsupervised manner improves non-expert ability to identify the truth in debates. Our results provide encouraging empirical evidence for the viability of aligning models with debate in the absence of ground truth.
研究动机与目标
- 在模型变得比人类更有能力时,推动可扩展的监管。
- 评估信息不对称的辩论协议,其中非专家评判专家辩论者。
- 在没有 ground-truth 标签的情况下,开发并验证辩论者与评审者的性能衡量指标。
- 评估说服力优化是否在辩论中提高真实度。
- 将分析扩展到多种协议下的语言模型与人类评审者。
提出的方法
- 实现三种辩论协议:Debate、Interactive Debate、Consultancy 作为基线。
- 使用信息不对称的设定,辩论者可访问底层文本,评审者(非专家)则无文本。
- 在 QuALITY 阅读理解任务上,使用 Project Gutenberg 文本并设定固定的三轮限制。
- 引入引文验证以确保证据的可信度(已验证/未验证引文)。
- 通过 best-of-N 采样和推理时间的批评与改进,优化辩论者的说服力。
- 使用 LLM 评审者(GPT-4-Turbo、GPT-3.5-Turbo、Claude 变体)和人类评审者进行评估;报告评审者的准确性与校准度。
- 开发无监督指标(胜率、 Elo 评分)以评估辩论者与评审者在没有 ground-truth 标签的情况下的性能。
实验结果
研究问题
- RQ1弱模型是否能够在辩论设定中对更强的模型进行可靠监督,以识别真实答案?
- RQ2将辩论者优化为具说服力是否会提高非专家评审者识别真相的能力?
- RQ3语言模型评审者在评估辩论论点时与人类评审者相比如何?
- RQ4不同辩论协议(Debate、Interactive Debate、Consultancy)对准确性与校准度有何影响?
- RQ5结果是否能在不同的基础模型与评审类型之间外推?
主要发现
- 非专家评审者在辩论情境下的准确率为 88%(人类)和 76%(LLMs),而简单基线分别为 60% 与 48%。
- 优化辩论者的说服力可以提升评审者在辩论中识别真相的能力。
- 人与人之间在辩论中的准确度更高、校准度更好;基于信心的拒绝在辩论中保持更高的准确性。
- 更强的评委能够带来更高的准确度和对辩论者的更大区分度;强辩论者在多种评审类型中改善辩论结果。
- 经过优化的顾问可能会损害评审者的准确性,尤其是在说服力针对错误答案时。
- 在各协议下,辩论在人类与 LLM 评审者的评估中均优于 consultancy;非专家互动在静态与互动设置中并不能提高准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。