[論文レビュー] Towards Accurate Differential Diagnosis with Large Language Models
NEJM CPC ケースで、差分診断に最適化されたLLMは、単独でも助言ツールとしても、トップ1およびトップ10のDDx精度とDDx品質指標でベースラインの臨床医とGPT-4を上回る。
An accurate differential diagnosis (DDx) is a cornerstone of medical care, often reached through an iterative process of interpretation that combines clinical history, physical examination, investigations and procedures. Interactive interfaces powered by Large Language Models (LLMs) present new opportunities to both assist and automate aspects of this process. In this study, we introduce an LLM optimized for diagnostic reasoning, and evaluate its ability to generate a DDx alone or as an aid to clinicians. 20 clinicians evaluated 302 challenging, real-world medical cases sourced from the New England Journal of Medicine (NEJM) case reports. Each case report was read by two clinicians, who were randomized to one of two assistive conditions: either assistance from search engines and standard medical resources, or LLM assistance in addition to these tools. All clinicians provided a baseline, unassisted DDx prior to using the respective assistive tools. Our LLM for DDx exhibited standalone performance that exceeded that of unassisted clinicians (top-10 accuracy 59.1% vs 33.6%, [p = 0.04]). Comparing the two assisted study arms, the DDx quality score was higher for clinicians assisted by our LLM (top-10 accuracy 51.7%) compared to clinicians without its assistance (36.1%) (McNemar's Test: 45.7, p < 0.01) and clinicians with search (44.4%) (4.75, p = 0.03). Further, clinicians assisted by our LLM arrived at more comprehensive differential lists than those without its assistance. Our study suggests that our LLM for DDx has potential to improve clinicians' diagnostic reasoning and accuracy in challenging cases, meriting further real-world evaluation for its ability to empower physicians and widen patients' access to specialist-level expertise.
研究の動機と目的
- 臨床ワークフローで対話型AIを用いた改善されたDDxを動機づける。
- 医療データで訓練された診断推論に特化したLLMを開発する。
- 独立してのDDxパフォーマンスを臨床医が生成したDDxと比較評価する。
- 従来の検索支援と比較してLLM支援のDDx生成を評価する。
- 安全性、有用性、教育的潜在性に関する臨床医の定性的見解を探る。
提案手法
- 長文コンテキスト推論を可能にする医療QA、医療対話、EHRノート要約の医療データでPaLM 2ベースのLLMをファインチューニングする。
- NEJM CPCケース報告書(302件)を用いてDDx生成を評価する: (i) 独立したLLM、(ii) LLM支援の臨床医DDx生成、(iii) 検索のみの臨床医DDx。
- 二段階リーダー研究を実施し、条件へ無作為割り当て・盲検専門家評価によるDDx品質評価を行う。
- DDxリストをトップ-N精度と定性的/構造化品質指標(Bondらの差分スコア、適切性、包括性)で定量的に評価する。
- LLMが予測診断と真の診断をDDxリストで自動評価(Med-PaLM 2による)を計算する。
- 臨床医への半構造化インタビューを実施し、認識とユースケースを把握する。
実験結果
リサーチクエスチョン
- RQ1医療分野に特化したLLMは現実世界の難しいケースで正確なDDxを生成できるか?
- RQ2LLM支援は臨床医のDDxの質、包括性、および最終診断との整合性を、従来の検索ベースツールと比較して改善するか?
- RQ3同じDDxベンチマークに対して自動評価を用いてGPT-4とLLMのパフォーマンスはどうか?
- RQ4臨床医は安全性、有用性、DDxにおけるLLMの潜在的役割をどう認識しているか?
- RQ5臨床教育とケア提供への統合を考慮した実務的な考慮事項は何か?
主な発見
- LLMは302件のNEJM CPCケースでトップ-10 DDx精度59.1%を達成(無支援の臨床医の33.6%より優れている)。
- 臨床医支援条件下でLLMのトップ-10精度は51.7%へ向上、無LLM時の36.1%と比較(McNemar検定、p<0.01)。
- LLMのDDxリストは無支援の臨床医より品質が高く(中央値5)、包括性と適切性が大きく向上(p<0.01〜p<0.001)。
- LLM支援条件は、無支援(6)および検索支援(7)と比較して、より長く、より包括的なDDxリストを生み出した(中央値8)。
- 定性的インタビューでは、教育的価値と専門家レベルの推論へのアクセスを広げる可能性を臨床医が認識する一方、正確性のリスクと人間の監視の必要性を指摘。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。