[论文解读] MKRAG: Medical Knowledge Retrieval Augmented Generation for Medical Question Answering
本文介绍 MKRAG,一种检索增强生成方法,利用上下文中的医学知识编辑来提升医学问答成绩而不进行微调,在 MedQA-USMLE 上提高了 Vicuna 的性能。
Large Language Models (LLMs), although powerful in general domains, often perform poorly on domain-specific tasks such as medical question answering (QA). In addition, LLMs tend to function as "black-boxes", making it challenging to modify their behavior. To address the problem, our work employs a transparent process of retrieval augmented generation (RAG), aiming to improve LLM responses without the need for fine-tuning or retraining. Specifically, we propose a comprehensive retrieval strategy to extract medical facts from an external knowledge base, and then inject them into the LLM's query prompt. Focusing on medical QA, we evaluate the impact of different retrieval models and the number of facts on LLM performance using the MedQA-SMILE dataset. Notably, our retrieval-augmented Vicuna-7B model exhibited an accuracy improvement from 44.46% to 48.54%. This work underscores the potential of RAG to enhance LLM performance, offering a practical approach to mitigate the challenges posed by black-box LLMs.
研究动机与目标
- 通过解决大型语言模型在医学知识方面的不足来提升医学问答性能的动机。
- 提出一个两步的医学事实检索与上下文编辑,以外部事实引导 LLM。
- 在 MedQA-USMLE/MedQA-USMILE 数据集上展示该方法并比较检索模型。
提出的方法
- 将外部医学事实转换为嵌入,使用选定的嵌入模型。
- 广泛检索以收集与每个答案候选相关的前-K 条事实。
- refined search 选择与问题最相似的前-k 条事实,形成 F_R。
- 将检索到的事实插入提示中,对 LLM 进行上下文编辑。
- 使用 Vicuna-13B 模型在 MedQA-USMLE 数据集上评估编辑效果。
实验结果
研究问题
- RQ1RQ1: 通过上下文事实进行模型编辑是否可以提升医学问答性能?
- RQ2RQ2: 哪种检索嵌入模型(Contriever 与 SapBERT)在医学问答中的事实检索效果更好?
- RQ3RQ3: 改变编辑事实的数量如何影响问答准确性?
主要发现
| Method | Accuracy (%) |
|---|---|
| BERT-base | 34.3 |
| BioBERT-base | 34.1 |
| RoBERTa-large | 35.0 |
| BioBERT-large | 36.7 |
| SapBERT | 37.2 |
| QA-GNN | 38.0 |
| Pre-edited Vicuna | 44.46 |
| Post-edited Vicuna (Ours) | 48.54 |
- 编辑后的 Vicuna 在 MedQA-USMLE 测试集上的准确率为 48.54%,高于未编辑的 Vicuna 的 44.46%。
- Contriever 在此设定中略强于 SapBert 作为检索模型(48.54% 对 48.07%),表明检索质量重要。
- 将编辑事实数量从 4/8/16 提升显示出与准确性的正相关,直至模型提示尺寸的约束。
- 与 BioBERT、SapBERT、QA-GNN 等基线相比,该方法在不微调或重新训练的情况下仍能实现具有竞争力的提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。