[論文レビュー] Chain-of-Verification Reduces Hallucination in Large Language Models
CoVeは基盤LLMに回答の下書きを作成させ、検証質問を計画し、それらに独立して回答し、最終的な検証済み回答を生成することで、タスク全体の幻覚を減らします。
Generation of plausible yet incorrect factual information, termed hallucination, is an unsolved issue in large language models. We study the ability of language models to deliberate on the responses they give in order to correct their mistakes. We develop the Chain-of-Verification (CoVe) method whereby the model first (i) drafts an initial response; then (ii) plans verification questions to fact-check its draft; (iii) answers those questions independently so the answers are not biased by other responses; and (iv) generates its final verified response. In experiments, we show CoVe decreases hallucinations across a variety of tasks, from list-based questions from Wikidata, closed book MultiSpanQA and longform text generation.
研究の動機と目的
- 大規模言語モデルにおけるタスク横断の幻覚問題を動機づけ、定量化する。
- Chain-of-Verification (CoVe) を導入し、意図的な自己検証によって幻覚を緩和する。
- 検証質問の計画と独立した回答が事実精度を向上させることを示す。
- タスクを横断して、結合型・2段階・因数分解型検証戦略を比較する。
提案手法
- ベースラインLLM(Llama 65B)は検証なしで初期回答を生成。
- CoVe はベースライン回答を条件として検証計画を生成。
- 各検証質問に回答して検証を実行する(結合、2段階、因数分解、または factor+revise の変種)。
- 検証結果を取り入れた最終的な検証済み回答を生成。
- 検証質問が元のベースラインに依存せず繰り返しを避ける変種を調査。
- Wikidata list questions、Wiki-Category lists、MultiSpanQA closed-book、長文伝記のタスクで評価;ベースラインおよび指示調整モデルと比較。
実験結果
リサーチクエスチョン
- RQ1CoVeは異なるタスクタイプで幻覚を減らしますか?
- RQ2CoVeは正しい内容を損なうことなく事実精度を向上させることができますか?
- RQ3どの検証実行変種が最も精度向上をもたらしますか?
- RQ4検証計画の質が全体性能に与える影響はどれくらいですか?
主な発見
| LLM | 方法 | 精度 (↑) | 正 | 負 |
|---|---|---|---|---|
| Llama 65B | Baseline few-shot | - | 0.59 | 2.95 |
| Llama 65B | CoVe (joint) | 0.36 | 0.38 | 0.68 |
| Llama 65B | CoVe (2-step) | 0.36 | 0.38 | 0.68 |
| Llama 65B | CoVe (factored) | 0.32 | 0.38 | 0.79 |
| Llama 2 70B Chat | Zero-shot | 0.12 | 0.55 | 3.93 |
| Llama 2 70B Chat | CoVe (joint) | 0.29 | 0.41 | 0.98 |
| Llama 2 70B Chat | CoVe (2-step) | 0.36 | 0.38 | 0.68 |
- CoVeはWikidataリストベースのタスクでの精度を向上させる(0.17 baseline → 0.36 with CoVe)。
- Wikidataタスクでのネガティブな幻覚カウントがCoVeにより2.95から0.68へ低下。
- CoVeは閉口試験MultiSpanQAのF1を0.39(few-shot baseline)から0.46–0.48(変種に応じて)へ改善。
- 長文伝記のFactScoreは、few-shot baselineの55.9からfactor+revise推論で71.4へ増加。
- 因数分解型および2段階のCoVe変種は、タスクを横断して結合CoVeを上回る。
- CoVeは長文生成において、InstructGPT、ChatGPT、PerplexityAIをFactScoreの一部設定で超えるなど、いくつかの指示調整済みまたは検索強化モデルを上回る可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。