[논문 리뷰] Benchmarking Retrieval-Augmented Generation for Medicine
이 논문은 Retrieval-augmented generation(RAG) 시스템 평가를 위한 Mirage라는 의료 QA 벤치마크와 MedRag 툴킷을 제시한다. MedRag은 다섯 개의 의료 QA 데이터세트에서 7,663개의 문제에 걸쳐 코퍼스, 리트리버, LLM을 체계적으로 비교한다. 대규모 실험에 기반한 의료 RAG에 대한 실용적인 모범 사례를 제공한다.
While large language models (LLMs) have achieved state-of-the-art performance on a wide range of medical question answering (QA) tasks, they still face challenges with hallucinations and outdated knowledge. Retrieval-augmented generation (RAG) is a promising solution and has been widely adopted. However, a RAG system can involve multiple flexible components, and there is a lack of best practices regarding the optimal RAG setting for various medical purposes. To systematically evaluate such systems, we propose the Medical Information Retrieval-Augmented Generation Evaluation (MIRAGE), a first-of-its-kind benchmark including 7,663 questions from five medical QA datasets. Using MIRAGE, we conducted large-scale experiments with over 1.8 trillion prompt tokens on 41 combinations of different corpora, retrievers, and backbone LLMs through the MedRAG toolkit introduced in this work. Overall, MedRAG improves the accuracy of six different LLMs by up to 18% over chain-of-thought prompting, elevating the performance of GPT-3.5 and Mixtral to GPT-4-level. Our results show that the combination of various medical corpora and retrievers achieves the best performance. In addition, we discovered a log-linear scaling property and the "lost-in-the-middle" effects in medical RAG. We believe our comprehensive evaluations can serve as practical guidelines for implementing RAG systems for medicine.
연구 동기 및 목표
- 다양한 RAG 구성요소(코퍼스, 리트리버, LLM)가 의료 QA 성능에 미치는 영향을 평가한다.
- 현실의 의료 정보 수요를 반영하는 확장 가능하고 제로샷 평가 프레임워크를 제공한다.
- 의료 RAG 배치에서 데이터 소스와 모델 선택에 대한 실용적인 지침을 제공한다.
제안 방법
- 다섯 개의 의료 QA 데이터세트에서 7,663개의 질문을 포함하는 Mirage 벤치마크를 도입하며, 제로샷 및 질문-전용 검색 설정을 특징으로 한다.
- 의료 분야의 RAG 시스템을 평가하기 위해 네 가지 리트리버, 네 가지 코퍼스, 여섯 가지 LLM으로 구성된 MedRag 툴킷을 개발한다.
- 검색된 스니펫을 질문 앞에 추가하고 모든 LLM에 대해 결정론적 설정으로 체인 오브 생각(chain-of-thought) 프롬핑을 사용한다.
- 다지선다 과제에서 정확도와 표준편차를 오차 경계로 하여 성능을 평가한다.
실험 결과
연구 질문
- RQ1다양한 의료 코퍼스가 다양한 의료 QA 작업에서 RAG 정확도에 어떤 영향을 미치는가?
- RQ2어떤 리트리버(사전적/lexical, 의미론적/semantic, 도메인 특화)가 RAG를 위한 의학적으로 관련된 스니펫을 가장 효과적으로 검색하는가?
- RQ3여러 리트리버를 결합하는(RRF) 것이 의료 QA 성능에 미치는 영향은 무엇인가?
- RQ4다양한 작업에서 검색된 스니펫의 수가 증가함에 따라 RAG 성능은 어떻게 확장되는가?
- RQ5코퍼스, 리트리버, 모델 선택 측면에서 의료 RAG를 배치하기 위한 실용적인 권고사항은 무엇인가?
주요 결과
| LLM | Method | MMLU-Med | MedQA-US | MedMCQA | PubMedQA* | BioASQ-Y/N | Avg |
|---|---|---|---|---|---|---|---|
| GPT-4 (-32k-0613) | CoT | 89.44 ± 0.93 | 83.97 ± 1.03 | 69.88 ± 0.71 | 39.60 ± 2.19 | 84.30 ± 1.46 | 73.44 |
| MedRag | MedRag | 87.24 ± 1.01 | 82.80 ± 1.06 | 66.65 ± 0.73 | 70.60 ± 2.04 | 92.56 ± 1.06 | 79.97 |
| GPT-3.5 (-16k-0613) | CoT | 72.91 ± 1.35 | 65.04 ± 1.34 | 55.25 ± 0.77 | 36.00 ± 2.15 | 74.27 ± 1.76 | 60.69 |
| MedRag | MedRag | 75.48 ± 1.30 | 66.61 ± 1.32 | 58.04 ± 0.76 | 67.40 ± 2.10 | 90.29 ± 1.19 | 71.57 |
| Mixtral (8 × 7B) | CoT | 74.01 ± 1.33 | 64.10 ± 1.34 | 56.28 ± 0.77 | 35.20 ± 2.14 | 77.51 ± 1.68 | 61.42 |
| MedRag | MedRag | 75.85 ± 1.30 | 60.02 ± 1.37 | 56.42 ± 0.77 | 67.60 ± 2.09 | 87.54 ± 1.33 | 69.48 |
| Llama2 (70B) | CoT | 57.39 ± 1.50 | 47.84 ± 1.40 | 42.60 ± 0.76 | 42.20 ± 2.21 | 61.17 ± 1.96 | 50.24 |
| MedRag | MedRag | 54.55 ± 1.51 | 44.93 ± 1.39 | 43.08 ± 0.77 | 50.40 ± 2.24 | 73.95 ± 1.77 | 53.38 |
| MEDITRON (70B) | CoT | 64.92 ± 1.45 | 51.69 예 1.40 | 46.74 ± 0.77 | 53.40 ± 2.23 | 68.45 ± 1.87 | 57.04 |
| MedRag | MedRag | 65.38 ± 1.44 | 49.57 ± 1.40 | 52.67 ± 0.77 | 56.40 ± 2.22 | 76.86 ± 1.70 | 60.18 |
| PMC-LLaMA (13B) | CoT | 52.16 ± 1.51 | 44.38 ± 1.39 | 46.55 ± 0.77 | 55.80 ± 2.22 | 63.11 ± 1.94 | 52.40 |
| MedRag | MedRag | 52.53 ± 1.51 | 42.58 ± 1.39 | 48.29 ± 0.77 | 56.00 ± 2.22 | 65.21 ± 1.92 | 52.92 |
- MedRag는 체인 오브 생각 프롬프트에 비해 여섯 가지 LLM의 정확도를 최대 18%까지 향상시킨다.
- GPT-3.5와 Mixtral은 MedRag와 함께 일부 작업에서 Mirage에 대한 GPT-4 수준의 성능에 도달할 수 있다.
- PubMed는 모든 Mirage 작업에서 강건하며, MedCorp(모든 코퍼스의 조합)는 강력하고 작업에 강건한 결과를 제공한다.
- MedCPT와 BM25는 개별 리트리버로도 강세를 보이며, 리트리버 결합(RRF)은 일반적으로 도움이 되지만 작업과 코퍼스에 따라 이득이 다르다.
- 검색된 스니펫 수와 모델 성능 사이에는 로그-선형 스케일링 패턴이 존재하며, 실제 정답 스니펫 위치에 대해 ‘lost-in-the-middle’ 효과가 관찰된다.
- 최고의 실천 권고로 PubMed 및 MedCorp 코퍼스를 선호하고, MedCPT를 신뢰할 수 있는 리트리버로 사용하며, 코퍼스에 따라 RRF-2 또는 RRF-4와 같은 RRF 구성을 고려하라.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.