QUICK REVIEW

[論文レビュー] Benchmarking Retrieval-Augmented Generation for Medicine

Guangzhi Xiong, Qiao Jin|arXiv (Cornell University)|Feb 20, 2024

Intelligent Tutoring Systems and Adaptive Learning被引用数 23

ひとこと要約

この論文は Mirage を医療リトリーバル拡張生成 (RAG) システムを評価するベンチマークとして紹介し、MedRag は 7,663 の質問を5つの医療 QA データセットから抽出してコーパス、リトリーバー、LLM を横断的に比較するツールキットである。大規模実験に基づく医療 RAG の実践的ベストプラクティスを提供する。

ABSTRACT

While large language models (LLMs) have achieved state-of-the-art performance on a wide range of medical question answering (QA) tasks, they still face challenges with hallucinations and outdated knowledge. Retrieval-augmented generation (RAG) is a promising solution and has been widely adopted. However, a RAG system can involve multiple flexible components, and there is a lack of best practices regarding the optimal RAG setting for various medical purposes. To systematically evaluate such systems, we propose the Medical Information Retrieval-Augmented Generation Evaluation (MIRAGE), a first-of-its-kind benchmark including 7,663 questions from five medical QA datasets. Using MIRAGE, we conducted large-scale experiments with over 1.8 trillion prompt tokens on 41 combinations of different corpora, retrievers, and backbone LLMs through the MedRAG toolkit introduced in this work. Overall, MedRAG improves the accuracy of six different LLMs by up to 18% over chain-of-thought prompting, elevating the performance of GPT-3.5 and Mixtral to GPT-4-level. Our results show that the combination of various medical corpora and retrievers achieves the best performance. In addition, we discovered a log-linear scaling property and the "lost-in-the-middle" effects in medical RAG. We believe our comprehensive evaluations can serve as practical guidelines for implementing RAG systems for medicine.

研究の動機と目的

異なる RAG コンポーネント（コーパス、リトリーバー、LLMs）が医療QAの性能に与える影響を評価する。
実世界の医療情報ニーズを反映する、拡張性のあるゼロショット評価フレームワークを提供する。
医療 RAG 展開におけるデータソースとモデルの選択に関する実用的ガイドラインを提供する。

提案手法

Mirage を紹介します。5つの医療QAデータセットからの7,663問を含み、ゼロショットおよび質問のみの取得設定を特徴とするベンチマーク。
MedRag を開発します。医療用RAGシステムを評価するための4つのリトリーバー、4つのコーパス、6つのLLMを含むツールキット。
取得したスニペットを質問に前置し、すべてのLLMで決定論的設定のチェーン・オブ・ソウト prompting を用いる。
多択タスクの正確度で性能を評価し、標準偏差を誤差範囲とする。

実験結果

リサーチクエスチョン

RQ1異なる医療コーパスが多様な医療QAタスクにおけるRAGの精度にどう影響するか？
RQ2どのリトリーバー（語彙的、意味的、ドメイン特化）が医療的に関連するスニペットを最も効果的に取得するか？
RQ3複数のリトリーバーを組み合わせる（RRF）の医療QA性能への影響は？
RQ4異なるタスクで取得スニペット数の増加がRAG性能にどう影響するか？
RQ5コーパス、リトリーバー、モデル選択の観点で医療RAGを展開する際の実用的推奨事項は何か？

主な発見

LLM	方法	MMLU-Med	MedQA-US	MedMCQA	PubMedQA*	BioASQ-Y/N	平均
GPT-4 (-32k-0613)	CoT	89.44 ± 0.93	83.97 ± 1.03	69.88 ± 0.71	39.60 ± 2.19	84.30 ± 1.46	73.44
MedRag	MedRag	87.24 ± 1.01	82.80 ± 1.06	66.65 ± 0.73	70.60 ± 2.04	92.56 ± 1.06	79.97
GPT-3.5 (-16k-0613)	CoT	72.91 ± 1.35	65.04 ± 1.34	55.25 ± 0.77	36.00 ± 2.15	74.27 ± 1.76	60.69
MedRag	MedRag	75.48 ± 1.30	66.61 ± 1.32	58.04 ± 0.76	67.40 ± 2.10	90.29 ± 1.19	71.57
Mixtral (8 × 7B)	CoT	74.01 ± 1.33	64.10 ± 1.34	56.28 ± 0.77	35.20 ± 2.14	77.51 ± 1.68	61.42
MedRag	MedRag	75.85 ± 1.30	60.02 ± 1.37	56.42 ± 0.77	67.60 ± 2.09	87.54 ± 1.33	69.48
Llama2 (70B)	CoT	57.39 ± 1.50	47.84 ± 1.40	42.60 ± 0.76	42.20 ± 2.21	61.17 ± 1.96	50.24
MedRag	MedRag	54.55 ± 1.51	44.93 ± 1.39	43.08 ± 0.77	50.40 ± 2.24	73.95 ± 1.77	53.38
MEDITRON (70B)	CoT	64.92 ± 1.45	51.69 ± 1.40	46.74 ± 0.77	53.40 ± 2.23	68.45 ± 1.87	57.04
MedRag	MedRag	65.38 ± 1.44	49.57 ± 1.40	52.67 ± 0.77	56.40 ± 2.22	76.86 ± 1.70	60.18
PMC-LLaMA (13B)	CoT	52.16 ± 1.51	44.38 ± 1.39	46.55 ± 0.77	55.80 ± 2.22	63.11 ± 1.94	52.40
MedRag	MedRag	52.53 ± 1.51	42.58 ± 1.39	48.29 ± 0.77	56.00 ± 2.22	65.21 ± 1.92	52.92

MedRagは6つのLLMの精度を、チェイン・オブ・ソウト promptingと比較して最大18%向上させる。
GPT-3.5 と Mixtral が MedRag とともに Mirage の一部タスクで GPT-4 相当の性能に達する。
PubMed はすべての Mirage タスクで堅牢であり、MedCorp（すべてのコーパスを組み合わせたもの）はタスクに強健な結果を提供する。
MedCPT と BM25 は個別の強力なリトリーバーであり、リトリーバーを組み合わせる（RRF）は一般的に有効だが、タスクとコーパスによって gains は異なる。
取得スニペット数とモデル性能の間には対数線形スケーリングパターンがあり、真のスニペット位置について「真ん中で見失う」効果が観察される。
ベストプラクティス推奨には PubMed および MedCorp コーパスを優先し、MedCPT を信頼性の高いリトリーバーとして使用し、コーパスに応じて RRF-2 や RRF-4 などのRRF設定を検討する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。