[论文解读] Benchmarking Retrieval-Augmented Generation for Medicine
本论文介绍 Mirage,一个用于评估检索增强生成(RAG)系统的医疗问答基准,以及 MedRag,一个 toolkit,用于在五个医疗 QA 数据集的 7,663 个问题上系统比较语料库、检索器和 LLMs。它基于大规模实验提供了医疗 RAG 的实际最佳实践。
While large language models (LLMs) have achieved state-of-the-art performance on a wide range of medical question answering (QA) tasks, they still face challenges with hallucinations and outdated knowledge. Retrieval-augmented generation (RAG) is a promising solution and has been widely adopted. However, a RAG system can involve multiple flexible components, and there is a lack of best practices regarding the optimal RAG setting for various medical purposes. To systematically evaluate such systems, we propose the Medical Information Retrieval-Augmented Generation Evaluation (MIRAGE), a first-of-its-kind benchmark including 7,663 questions from five medical QA datasets. Using MIRAGE, we conducted large-scale experiments with over 1.8 trillion prompt tokens on 41 combinations of different corpora, retrievers, and backbone LLMs through the MedRAG toolkit introduced in this work. Overall, MedRAG improves the accuracy of six different LLMs by up to 18% over chain-of-thought prompting, elevating the performance of GPT-3.5 and Mixtral to GPT-4-level. Our results show that the combination of various medical corpora and retrievers achieves the best performance. In addition, we discovered a log-linear scaling property and the "lost-in-the-middle" effects in medical RAG. We believe our comprehensive evaluations can serve as practical guidelines for implementing RAG systems for medicine.
研究动机与目标
- 评估不同 RAG 组件(语料库、检索器、LLMs)如何影响医疗问答性能。
- 提供可扩展的零-shot 评估框架,反映现实世界的医疗信息需求。
- 为在医疗 RAG 部署中选择数据源和模型提供实用指南。
提出的方法
- 引入 Mirage,这是一个包含来自五个医疗 QA 数据集的 7,663 个问题的基准,具备零-shot 和仅问题检索设定。
- 开发 MedRag,这是一个包含四个检索器、四个语料库和六个 LLM 的工具包,用于评估医学中的 RAG 系统。
- 将检索到的片段置于问题之前,并对所有 LLM 使用带确定性设置的链式思维提示。
- 使用多项选择任务的准确度来评估性能,误差以标准差表示。
实验结果
研究问题
- RQ1不同医疗语料库如何影响跨多样化医疗问答任务的 RAG 准确率?
- RQ2哪些检索器(词汇型、语义型、领域特定)在检索对 RAG 有效的医学相关片段方面最有效?
- RQ3将多个检索器结合(RRF)对医疗问答性能有何影响?
- RQ4随着检索片段数量增加,RAG 性能在不同任务中的规模效应如何?
- RQ5在语料、检索器和模型选择方面,可以得出哪些将医疗 RAG 部署的实用建议?
主要发现
| LLM | Method | MMLU-Med | MedQA-US | MedMCQA | PubMedQA* | BioASQ-Y/N | Avg |
|---|---|---|---|---|---|---|---|
| GPT-4 (-32k-0613) | CoT | 89.44 ± 0.93 | 83.97 ± 1.03 | 69.88 ± 0.71 | 39.60 ± 2.19 | 84.30 ± 1.46 | 73.44 |
| MedRag | MedRag | 87.24 ± 1.01 | 82.80 ± 1.06 | 66.65 ± 0.73 | 70.60 ± 2.04 | 92.56 ± 1.06 | 79.97 |
| GPT-3.5 (-16k-0613) | CoT | 72.91 ± 1.35 | 65.04 ± 1.34 | 55.25 ± 0.77 | 36.00 ± 2.15 | 74.27 ± 1.76 | 60.69 |
| MedRag | MedRag | 75.48 ± 1.30 | 66.61 ± 1.32 | 58.04 ± 0.76 | 67.40 ± 2.10 | 90.29 ± 1.19 | 71.57 |
| Mixtral (8 × 7B) | CoT | 74.01 ± 1.33 | 64.10 ± 1.34 | 56.28 ± 0.77 | 35.20 ± 2.14 | 77.51 ± 1.68 | 61.42 |
| MedRag | MedRag | 75.85 ± 1.30 | 60.02 ± 1.37 | 56.42 ± 0.77 | 67.60 ± 2.09 | 87.54 ± 1.33 | 69.48 |
| Llama2 (70B) | CoT | 57.39 ± 1.50 | 47.84 ± 1.40 | 42.60 ± 0.76 | 42.20 ± 2.21 | 61.17 ± 1.96 | 50.24 |
| MedRag | MedRag | 54.55 ± 1.51 | 44.93 ± 1.39 | 43.08 ± 0.77 | 50.40 ± 2.24 | 73.95 ± 1.77 | 53.38 |
| MEDITRON (70B) | CoT | 64.92 ± 1.45 | 51.69 ± 1.40 | 46.74 ± 0.77 | 53.40 ± 2.23 | 68.45 ± 1.87 | 57.04 |
| MedRag | MedRag | 65.38 ± 1.44 | 49.57 ± 1.40 | 52.67 ± 0.77 | 56.40 ± 2.22 | 76.86 ± 1.70 | 60.18 |
| PMC-LLaMA (13B) | CoT | 52.16 ± 1.51 | 44.38 ± 1.39 | 46.55 ± 0.77 | 55.80 ± 2.22 | 63.11 ± 1.94 | 52.40 |
| MedRag | MedRag | 52.53 ± 1.51 | 42.58 ± 1.39 | 48.29 ± 0.77 | 56.00 ± 2.22 | 65.21 ± 1.92 | 52.92 |
- MedRag 相较于使用链式思维提示,在六个 LLM 上将准确率提高最多 18%。
- GPT-3.5 与 Mixtral 在 MedRag 的作用下,在某些任务上可达到 Mirage 的 GPT-4 水平。
- PubMed 在所有 Mirage 任务中都具有鲁棒性;MedCorp(所有语料的组合)提供了强大且对任务鲁棒的结果。
- MedCPT 和 BM25 是强大的单一检索器;组合检索器(RRF)通常有帮助,但增益因任务和语料而异。
- 在检索片段数量与模型性能之间存在对数线性缩放模式,且对 ground-truth 片段位置观察到中间丢失效应。
- 最佳实践建议包括偏好 PubMed 和 MedCorp 语料库,使用 MedCPT 作为可靠检索器,并根据语料考虑 RRF 配置(如 RRF-2 或 RRF-4)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。