[論文レビュー] Large Language Models Encode Clinical Knowledge
tldr: Flan-PaLM はいくつかの医療 QA ベンチマークで最先端の結果を達成; instruction prompt tuning (Med-PaLM) は臨床医との整合性を改善するものの、人間の臨床医と比較してギャップが残る。
Large language models (LLMs) have demonstrated impressive capabilities in natural language understanding and generation, but the quality bar for medical and clinical applications is high. Today, attempts to assess models' clinical knowledge typically rely on automated evaluations on limited benchmarks. There is no standard to evaluate model predictions and reasoning across a breadth of tasks. To address this, we present MultiMedQA, a benchmark combining six existing open question answering datasets spanning professional medical exams, research, and consumer queries; and HealthSearchQA, a new free-response dataset of medical questions searched online. We propose a framework for human evaluation of model answers along multiple axes including factuality, precision, possible harm, and bias. In addition, we evaluate PaLM (a 540-billion parameter LLM) and its instruction-tuned variant, Flan-PaLM, on MultiMedQA. Using a combination of prompting strategies, Flan-PaLM achieves state-of-the-art accuracy on every MultiMedQA multiple-choice dataset (MedQA, MedMCQA, PubMedQA, MMLU clinical topics), including 67.6% accuracy on MedQA (US Medical License Exam questions), surpassing prior state-of-the-art by over 17%. However, human evaluation reveals key gaps in Flan-PaLM responses. To resolve this we introduce instruction prompt tuning, a parameter-efficient approach for aligning LLMs to new domains using a few exemplars. The resulting model, Med-PaLM, performs encouragingly, but remains inferior to clinicians. We show that comprehension, recall of knowledge, and medical reasoning improve with model scale and instruction prompt tuning, suggesting the potential utility of LLMs in medicine. Our human evaluations reveal important limitations of today's models, reinforcing the importance of both evaluation frameworks and method development in creating safe, helpful LLM models for clinical applications.
研究の動機と目的
- 医療質問回答の多様でオープンなベンチマーク(MultiMedQA)を、試験、研究、消費者クエリを横断して作成する。
- 事実性、害、偏見、有用性を評価するための人間評価フレームワークを開発・適用する。
- ベンチマーク上で PaLM と Flan-PaLM を評価し、医療ドメインの要件にモデルを適合させるための instruction prompt tuning を提案する。
- モデル規模と prompting 戦略が医療知識の想起と推論を向上させることを示し、残る安全性と整合性のギャップを特定する。
提案手法
- 6つの既存医療QAデータセットを組み合わせ、HealthSearchQA(3375 の消費者検索質問)を追加して MultiMedQA を作成する。
- 少数ショット、チェーンオブソート、および自己整合性プロンプトを用いてベンチマーク上で PaLM と Flan-PaLM を評価する。
- Flan-PaLM の MedQA、MedMCQA、PubMedQA、MMLU の臨床トピックにおける最先端の精度を報告する(例:MedQA 67.6%)。
- Flan-PaLM を医療ドメインタスクに合わせるための instruction prompt tuning を導入し、臨床的整合性が改善された Med-PaLM を生み出す。
- 科学的コンセンサスとの一致、潜在的な害、バイアスなどの軸に跨る臨床医と一般ユーザーの評価を含むパイロット人間評価フレームワークを開発する。
- 医療LLM の安全性と有用性を高めるための主要な制限点を議論し、今後の研究の方向性を提案する。
実験結果
リサーチクエスチョン
- RQ1大規模言語モデルは多様な医療QAタスクにおいて臨床知識をどの程度組み込み、活用しているのか?
- RQ2instruction prompt tuning はLLMsを医療ドメインの要件に整合させ、害を減らし、事実性と有用性を向上させることができるか?
- RQ3モデルの規模と prompting 戦略は LLMs の理解、想起、医療推論にどのような影響を与えるか?
- RQ4臨床医と一般人の評価は、医療AI出力を評価する自動ベンチマークとどのように比較されるか?
主な発見
- Flan-PaLM は MedQA (67.6%)、MedMCQA (57.6%)、PubMedQA (79.0%)、および MMLU 臨床トピックで最先端の精度を達成。
- MedQA の性能は従来の SOTA を 17% 超上回る。
- 臨床医評価:Flan-PaLM の長文回答の 61.9% が科学的コンセンサスと整合、Med-PaLM は 92.6%、臨床医生成回答は 92.9%。
- 潜在的な害:Flan-PaLM の回答の 29.7% が潜在的に害を及ぼす可能性があると評価されたのに対し、Med-PaLM は 5.8%、臨床医生成回答は 6.5%であった。
- 指示調整版である Med-PaLM は医療コンセンサスへの整合性と害の低減に有望な結果を示す一方で、いくつかの軸では臨床医より劣る。
- HealthSearchQA は実世界の質問応答を評価するために 3,375 の消費者向け医療質問を導入する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。