[論文レビュー] Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval
4段階のドメイン連携型階層型検索・検証パイプライン(Intrinsic Verification、Adaptive Domain Retrieval、Refined Context Filtering、Extrinsic Regeneration)を提案し、LLMの幻覚を低減;5つのベンチマークで650クエリを評価し高い勝率と根拠づけスコアを示す。
Large Language Models (LLMs) have achieved unprecedented fluency but remain susceptible to "hallucinations" - the generation of factually incorrect or ungrounded content. This limitation is particularly critical in high-stakes domains where reliability is paramount. We propose a domain-grounded tiered retrieval and verification architecture designed to systematically intercept factual inaccuracies by shifting LLMs from stochastic pattern-matchers to verified truth-seekers. The proposed framework utilizes a four-phase, self-regulating pipeline implemented via LangGraph: (I) Intrinsic Verification with Early-Exit logic to optimize compute, (II) Adaptive Search Routing utilizing a Domain Detector to target subject-specific archives, (III) Refined Context Filtering (RCF) to eliminate non-essential or distracting information, and (IV) Extrinsic Regeneration followed by atomic claim-level verification. The system was evaluated across 650 queries from five diverse benchmarks: TimeQA v2, FreshQA v2, HaluEval General, MMLU Global Facts, and TruthfulQA. Empirical results demonstrate that the pipeline consistently outperforms zero-shot baselines across all environments. Win rates peaked at 83.7% in TimeQA v2 and 78.0% in MMLU Global Facts, confirming high efficacy in domains requiring granular temporal and numerical precision. Groundedness scores remained robustly stable between 78.8% and 86.4% across factual-answer rows. While the architecture provides a robust fail-safe for misinformation, a persistent failure mode of "False-Premise Overclaiming" was identified. These findings provide a detailed empirical characterization of multi-stage RAG behavior and suggest that future work should prioritize pre-retrieval "answerability" nodes to further bridge the reliability gap in conversational AI.
研究の動機と目的
- LLM出力の幻覚を、ドメイン固有で検証済みの外部ソースに基づく生成によって低減する。
- 自己調整型の多段階検索と検証アーキテクチャを通じて事実的信頼性を高める。
- Intrinsic検証とearly-exitによって計算資源を最適化し、可能な場合には検索を回避する。
- 多様なベンチマークを横断してアプローチを評価し、根拠づけと誤差モードを定量化する。
提案手法
- LangGraphで実装された4フェーズのパイプライン:early-exitを伴うintrinsic検証;ドメイン検出器による適応的検索ルーティング;ノイズを除去するためのRefined Context Filtering;原子クレーム検証を用いたExtrinsic Regeneration。
- ゼロショットの内部生成をまず使用;信頼度が不十分な場合、一般Web検索の前に信頼できるドメイン固有ソースへルーティング。
- 外部データは関連性と信頼性を評価する修正ドキュメントグレーダーでスコア付けされ、再生成された回答は検証のため原子クレームに分解。
- 最終検証は retrieved evidence に対する原子クレームレベルのチェックと検証失敗時の謝罪を含むブレーキ機構を使用。
- 内部タスクにはLlama 3.1 8B、検索にはTavily API、審判にはGemma3 27B、マルチステージのグラフワークフローにはLangGraphを使用。
実験結果
リサーチクエスチョン
- RQ1ドメイン連携型の階層型検索は、ゼロショットのベースラインと比較して多様な事実タスクで幻覚をどれだけ軽減できるか。
- RQ2ドメイン連携設定におけるマルチステージRAGの主な失敗モードは何か、そしてそれをどう緩和できるか。
- RQ3IntrinsicとExtrinsic検証のバランスが事実生成の待ち時間と精度にどう影響するか。
- RQ4 trustedソースへの適応ルーティングは、 temporally敏感または数値的に正確なクエリの根拠づけをどの程度改善するか。
主な発見
| Benchmark | N | Proposed Wins | Tie | Baseline Wins | Win Rate | Hallucination | Groundedness |
|---|---|---|---|---|---|---|---|
| TimeQA v2 | 86* | 72 | 10 | 4 | 83.7% | 13.6% | 86.4% |
| MMLU Global Facts | 50 | 39 | 8 | 3 | 78.0% | 33.1% | 66.9% |
| FreshQA v2 | 150 | 97 | 37 | 16 | 64.7% | 3.5% | 19.2% |
| TruthfulQA | 150 | 82 | 56 | 12 | 54.7% | 15.1% | 84.9% |
| HaluEval General | 150 | 75 | 45 | 30 | 50.0% | 21.2% | 78.8% |
| Combined (650) | 586 | 365 | 220 | 65 | 65% | - | - |
- パイプラインは5つのベンチマーク全てでゼロショットベースラインを上回り、勝率は50.0%から83.7%の範囲。
- TimeQA v2で最高の勝率83.7%、MMLU Global Factsで78.0%。
- 根拠づけスコアは事実的回答列で78.8%から86.4%の範囲で堅固、MMLUは測定感度の影響で例外。
- 根拠づけと幻覚指標は事実列で安定した性能を示す一方、HaluEval Generalのようなオープンドメインベンチマークでは得られる改善が限定的。
- 注目すべき失敗モードはFalse-Premise Overclaimingであり、事前検索可能性チェックと改良された拒否戦略の必要性を示唆。
- Intrinsic haltingはオープンドメインのクエリに対する検索使用を約20%削減し、効率を向上。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。