[論文レビュー] Debating with More Persuasive LLMs Leads to More Truthful Answers
本論文は、より強力な専門家LLM同士を互いにディベートさせ、評価者が弱い非専門家(人間を含む)によって判断されることで、より真実性の高い回答が得られることを示している;説得力を最適化することで、ground-truthラベルなしで審判の精度が向上する。
Common methods for aligning large language models (LLMs) with desired behaviour heavily rely on human-labelled data. However, as models grow increasingly sophisticated, they will surpass human expertise, and the role of human evaluation will evolve into non-experts overseeing experts. In anticipation of this, we ask: can weaker models assess the correctness of stronger models? We investigate this question in an analogous setting, where stronger models (experts) possess the necessary information to answer questions and weaker models (non-experts) lack this information. The method we evaluate is debate, where two LLM experts each argue for a different answer, and a non-expert selects the answer. We find that debate consistently helps both non-expert models and humans answer questions, achieving 76% and 88% accuracy respectively (naive baselines obtain 48% and 60%). Furthermore, optimising expert debaters for persuasiveness in an unsupervised manner improves non-expert ability to identify the truth in debates. Our results provide encouraging empirical evidence for the viability of aligning models with debate in the absence of ground truth.
研究の動機と目的
- モデルが人間を超える能力を持つようになるにつれて、スケーラブルな監視の重要性を動機づける。
- 非専門家が専門家の討論者を判断する情報非対称のディベートプロトコルを評価する。
- ground-truthラベルなしで討論者と審判の性能を測定する指標を開発・検証する。
- 説得力の最適化がディベートの真実性を向上させるかを評価する。
- 複数のプロトコルにわたって、言語モデルと人間の審判の両方に分析を拡張する。
提案手法
- ベースラインとして、Debate、Interactive Debate、Consultancy の3つのディベート・プロトコルを実装する。
- 討論者が基礎テキストにアクセスでき、審判(非専門家)はテキストを持たない情報非対称の設定を用いる。
- QuALITYの読解課題を、Project Gutenbergのテキストを用いて、固定の3ラウンド制限で実施する。
- 根拠の信頼性を保証するために引用検証を導入する(verified/unverified quotes)。
- 推論時にbest-of-Nサンプリングと批評・洗練を用いて、説得力を持つ討論者を最適化する。
- LLM審判(GPT-4-Turbo、GPT-3.5-Turbo、Claude系列)と人間の審判で評価する。審判の正確さと較正を報告する。
- ground-truthラベルなしで討論者と審判の性能を評価するための教師なし指標(勝率、Eloレーティング)を開発する。
実験結果
リサーチクエスチョン
- RQ1弱いモデルはディベート設定で強いモデルを信頼できるように監督して、真実な回答を特定できるか。
- RQ2説得力を最適化することで、非専門家の審判が真実を見極める能力は向上するか。
- RQ3ディベートされた主張を評価する際、言語モデルの審判と人間の審判はどう比較されるか。
- RQ4異なるディベート・プロトコル(Debate、Interactive Debate、Consultancy)の正確さとキャリブレーションに与える影響は何か。
- RQ5結果は異なるベースモデルや審判タイプに対して一般化されるか。
主な発見
- 非専門家の審判は、ディベートで人間で88%、LLMsで76%の正確さを達成する;素朴なベースラインはそれぞれ60%と48%である。
- 説得力を最適化すると、審判がディベートの真実を識別する能力が向上する。
- 人間はディベートの方がコンサルタシーより高い正確さとより良いキャリブレーションを達成する;信頼度ベースの拒否はディベートでより高い正確さを維持する。
- より有能な審判は正確さを高め、討論者間の識別を大きくする;強い討論者は審判タイプを超えてディベート結果を改善する。
- 最適化されたコンサルタントは、特に説得力が誤った回答を狙う場合、審判の正確さを損なう可能性がある。
- プロトコルを通じて、ディベートは人間とLLMの審判評価の双方でコンサルタシーを上回る;非専門家との対話は静的設定と対話設定のいずれでも正確さを向上させない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。