[论文解读] RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering
RAG-X 通过诊断组件级失效来评估医疗 RAG 的安全部署,并将检索器与生成器的评估解耦,从而将输出分为可操作的诊断象限,揭示 grounding 缺口与可操作的失败模式以实现更安全的临床问答。
Automated question-answering (QA) systems increasingly rely on retrieval-augmented generation (RAG) to ground large language models (LLMs) in authoritative medical knowledge, ensuring clinical accuracy and patient safety in Artificial Intelligence (AI) applications for healthcare. Despite progress in RAG evaluation, current benchmarks focus only on simple multiple-choice QA tasks and employ metrics that poorly capture the semantic precision required for complex QA tasks. These approaches fail to diagnose whether an error stems from faulty retrieval or flawed generation, limiting developers from performing targeted improvement. To address this gap, we propose RAG-X, a diagnostic framework that evaluates the retriever and generator independently across a triad of QA tasks: information extraction, short-answer generation, and multiple-choice question (MCQ) answering. RAG-X introduces Context Utilization Efficiency (CUE) metrics to disaggregate system success into interpretable quadrants, isolating verified grounding from deceptive accuracy. Our experiments reveal an ``Accuracy Fallacy", where a 14\% gap separates perceived system success from evidence-based grounding. By surfacing hidden failure modes, RAG-X offers the diagnostic transparency needed for safe and verifiable clinical RAG systems.
研究动机与目标
- 推动在医疗 RAG 的安全部署,通过诊断组件级失效来实现安全性改进。
- 将检索器与生成器的评估解耦,以识别 grounding 与 generation 的错误。
- 引入 Context Utilization Efficiency (CUE),将输出分类为可执行诊断象限。
- 在信息提取、简短答案生成和 MCQ 回答方面,利用医疗数据集提供诊断。
提出的方法
- 在标准 RAG 流程上增加一个用于预处理的医疗归一化层。
- 采用混合检索方法,结合 BM25 词汇匹配与语义向量检索;α 控制稀疏与密集检索之间的平衡。
- 定义并计算检索诊断指标(排序指标、基于 LLM 的上下文相关性、细粒度检索信号)。
- 定义并计算生成诊断指标(表面层相似性、语义相似性、结构化输出度量,以及基于 LLM 的判断)。
- 引入 Context Utilization Efficiency (CUE),将检索器和生成器的表现映射到四个诊断象限(有效使用、信息盲区、幻觉/侥幸猜测、正确拒绝)。
- 在三个人医用问答基准上进行评估,涵盖多模态与相关知识库。
实验结果
研究问题
- RQ1RAG-X 能否在医疗问答任务中准确诊断错误来自检索还是生成?
- RQ2CUE 象限是否揭示未被聚合准确度指标捕捉的隐藏 grounding 问题?
- RQ3不同检索器配置如何影响医疗领域中检索证据的覆盖、冗余与排他性?
- RQ4在医疗领域的信息提取、简短答案生成和 MCQ 回答中,RAG 机制下出现的可执行瓶颈是什么?
主要发现
- RAG-X 揭示了一个 Accuracy Fallacy,即高总体准确度掩盖了缺乏基于证据的 grounding。
- 在最佳流程下,22.0% 的检索上下文存在冗余,6.8% 的顶级上下文是独占证据源。
- accuracy 与基于证据的 grounding 之间存在 14% 的差距,有 33.9% 的回答仅由“侥幸猜测”所 grounding。
- Context Utilization Efficiency (CUE) 将输出分为四个象限,揭示有 grounding 的成功与看似正确但未 grounding 的答案。
- 在三个临床数据集上,标准的准确度/ F1 指标在没有组件级诊断的情况下,可能错误地表示真实的 grounding 与检索质量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。