[論文レビュー] Chunking, Retrieval, and Re-ranking: An Empirical Evaluation of RAG Architectures for Policy Document Question Answering
論文は、Vanilla LLM、Basic RAG、およびAdvanced RAGパイプライン(cross-encoderリランキングを含む)をCDC文書に対する方針質問回答で経験的に比較し、cross-encoderリランキングが忠実性と関連性を著しく向上させ、Advanced RAGが最高スコアを達成することを示しています。
The integration of Large Language Models (LLMs) into the public health policy sector offers a transformative approach to navigating the vast repositories of regulatory guidance maintained by agencies such as the Centers for Disease Control and Prevention (CDC). However, the propensity for LLMs to generate hallucinations, defined as plausible but factually incorrect assertions, presents a critical barrier to the adoption of these technologies in high-stakes environments where information integrity is non-negotiable. This empirical evaluation explores the effectiveness of Retrieval-Augmented Generation (RAG) architectures in mitigating these risks by grounding generative outputs in authoritative document context. Specifically, this study compares a baseline Vanilla LLM against Basic RAG and Advanced RAG pipelines utilizing cross-encoder re-ranking. The experimental framework employs a Mistral-7B-Instruct-v0.2 model and an all-MiniLM-L6-v2 embedding model to process a corpus of official CDC policy analytical frameworks and guidance documents. The analysis measures the impact of two distinct chunking strategies, recursive character-based and token-based semantic splitting, on system accuracy, measured through faithfulness and relevance scores across a curated set of complex policy scenarios. Quantitative findings indicate that while Basic RAG architectures provide a substantial improvement in faithfulness (0.621) over Vanilla baselines (0.347), the Advanced RAG configuration achieves a superior faithfulness average of 0.797. These results demonstrate that two-stage retrieval mechanisms are essential for achieving the precision required for domain-specific policy question answering, though structural constraints in document segmentation remain a significant bottleneck for multi-step reasoning tasks.
研究の動機と目的
- authoritative policy guidanceに基づくLLM出力の grounding を動機づけ、公共衛生分野における幻覚を減らす。
- CDCポリシ文書コーパスに対する retrieval-augmented generation パイプラインを評価する。
- チャンクング戦略と二段階検索が忠実性と回答の関連性に与える影響を定量化する。
提案手法
- 初期取得にはBi-Encoderを用い、次にCross-EncoderでリランキングするDual-Stage Retrievalパイプラインを実装する。
- embdeddingモデル(all-MiniLM-L6-v2)とCross-Encoder(ms-marco-MiniLM-L-6-v2)を用いてCDCポリシー文書コーパスを処理する。
- 検索をOver-Retrieveとして定義し、トップ-k候補を抽出してLLMにプロンプトする。
- 3つのシステム構成を比較する:Vanilla LLM、Basic RAG、Advanced RAG。
- 10問の評価セットに対して忠実性と関連性スコアでパフォーマンスを測定する。
- 高度なRAGでの失敗モードと回復を分析し、Qualitativeな例を提供する。
実験結果
リサーチクエスチョン
- RQ1高度な検索技術(cross-encoderリランキング)が方針QA出力の忠実性と関連性をどの程度改善するか。
- RQ2チャンクング戦略が方針回答の grounding に与える影響は。
- RQ3高精度な方針 grounding 応答を得るには二段階検索パイプラインが必要か。
主な発見
| QID | Van Faithfulness | Bas Faithfulness | Adv Faithfulness | Van Relevance | Bas Relevance | Adv Relevance |
|---|---|---|---|---|---|---|
| Q1 | 0.33 | 0.33 | 0.67 | 0.50 | 1.00 | 1.00 |
| Q2 | 0.33 | 0.67 | 0.83 | 0.33 | 1.00 | 1.00 |
| Q3 | 0.33 | 1.00 | 1.00 | 0.67 | 1.00 | 1.00 |
| Q4 | 0.33 | 0.33 | 0.16 | 0.50 | 0.50 | 0.50 |
| Q5 | 0.25 | 0.50 | 0.25 | 0.33 | 0.67 | 0.33 |
| Q6 | 0.33 | 0.67 | 1.00 | 0.33 | 0.80 | 1.00 |
| Q7 | 0.00 | 0.71 | 0.29 | 0.00 | 1.00 | 0.50 |
| Q8 | 0.40 | 0.00 | 0.80 | 0.50 | 0.00 | 0.67 |
| Q9 | 0.50 | 1.00 | 1.00 | 0.67 | 1.00 | 1.00 |
| Q10 | 0.67 | 1.00 | 1.00 | 0.67 | 1.00 | 1.00 |
- Vanilla LLMは方針 grounding タスクで幻覚のために能力が不足。
- Basic RAGは忠実性を実質的に向上させ(0.621対Vanillaの0.347)、関連性も一部で0.70対0.45へ改善。
- Advanced RAGは最も高い忠実性平均(0.797)を達成し、cross-encoderリランキングを活用することで全体的な grounding 効率が最適化。
- 二段階検索(Bi-Encoder→Cross-Encoder)は、Cross-Encoderの評価を小さな候補集合に制限することで精度を顕著に向上。
- 定性的ケースでは、Advanced RAG がCDCの framingと整合する方針文脈を取り出し、方針文脈のずれと幻覚を抑制。
- Basic RAG は retrieved context が無関係な場合には不安定で一部クエリで失敗し得るが、Advanced RAG はトークンレベルの正確な整合により回復。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。