[論文レビュー] Towards Expert-Level Medical Question Answering with Large Language Models
Med-PaLM 2 は PaLM 2、ドメイン特化のファインチューニング、アンサンブル精錬を活用することにより、以前の医療QAモデルを上回り、複数のベンチマークで最先端の結果と長文回答の人間評価が好意的である。
Recent artificial intelligence (AI) systems have reached milestones in "grand challenges" ranging from Go to protein-folding. The capability to retrieve medical knowledge, reason over it, and answer medical questions comparably to physicians has long been viewed as one such grand challenge. Large language models (LLMs) have catalyzed significant progress in medical question answering; Med-PaLM was the first model to exceed a "passing" score in US Medical Licensing Examination (USMLE) style questions with a score of 67.2% on the MedQA dataset. However, this and other prior work suggested significant room for improvement, especially when models' answers were compared to clinicians' answers. Here we present Med-PaLM 2, which bridges these gaps by leveraging a combination of base LLM improvements (PaLM 2), medical domain finetuning, and prompting strategies including a novel ensemble refinement approach. Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM by over 19% and setting a new state-of-the-art. We also observed performance approaching or exceeding state-of-the-art across MedMCQA, PubMedQA, and MMLU clinical topics datasets. We performed detailed human evaluations on long-form questions along multiple axes relevant to clinical applications. In pairwise comparative ranking of 1066 consumer medical questions, physicians preferred Med-PaLM 2 answers to those produced by physicians on eight of nine axes pertaining to clinical utility (p < 0.001). We also observed significant improvements compared to Med-PaLM on every evaluation axis (p < 0.001) on newly introduced datasets of 240 long-form "adversarial" questions to probe LLM limitations. While further studies are necessary to validate the efficacy of these models in real-world settings, these results highlight rapid progress towards physician-level performance in medical question answering.
研究の動機と目的
- 大規模言語モデルを用いた医療質問応答において、医師レベルの性能の向上を目指す。
- 複数ドメインの医療QAベンチマークと実世界風の長文質問を通じてモデルを評価する。
- 医療推論と安全性を向上させる prompting 戦略を開発・検証する。
提案手法
- PaLM 2 を基盤の LLM として使用。
- MultiMedQA データセット(MedQA、MedMCQA、HealthSearchQA、LiveQA、MedicationQA)上でインストラクショントuning による医療ドメインデータでファインチューニング。
- 複数の推論経路を統合し回答を洗練させるアンサンブル精錬 prompting を導入。
- few-shot、chain-of-thought、self-consistency、アンサンブル精錬など複数の prompting 戦略で評価。
- 長文回答と敵対的データセットに対して、医師および一般評価者による広範な人間評価を実施。
- 訓練データ汚染の可能性を評価するためのテストセットの重複を分析。

実験結果
リサーチクエスチョン
- RQ1標準的な医療QAベンチマークで Med-PaLM 2 が医師レベルの性能に到達またはそれを超えることができるか?
- RQ2ドメイン特異のファインチューニングと高度な prompting 戦略は長文回答における医療推論と安全性を向上させるか?
- RQ3敵対的または公平性重視の質問に直面した場合、モデル出力はどれだけ頑健か?
- RQ4訓練データとテストデータの重複が報告されたベンチマーク性能に与える影響は?
主な発見
- Med-PaLM 2 は MedQA USMLE 風の問題で最大86.5%の正解率を達成し、Med-PaLM を約19%以上上回る。
- Med-PaLM 2 は MedMCQA、PubMedQA、MMLU の臨床トピックで最先端またはそれを超える水準に近づく。
- 長文評価では、医師は臨床的有用性の9軸中8軸で Med-PaLM 2 を Med-PaLM より好むと評価した;一般評価者は Med-PaLM 2 の方が有益で関連性が高いと判断。
- 敵対的データセットは、安全性と制限の検証の全軸で Med-PaLM 2 が Med-PaLM を大幅に上回ることを示す(例:害のリスク低下、医療合意へのより良い調整)。
- 単純なアンサンブル精錬 prompting 戦略は、基準となる few-shot および self-consistency を上回り、複数選択問題ベンチマーク(例:MedQA および MMLU の派生)で性能を大幅に向上させる。
- 重複分析は、限定的だが無視できない訓練テストデータの汚染を示唆しており、報告された性能に穏やかな影響を与える。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。