[論文レビュー] Prompting Large Language Models for Zero-Shot Clinical Prediction with Structured Longitudinal Electronic Health Record Data
本論文は、特別に設計されたプロンプト設計フレームワークを用いると、GPT-4 や他の LLM が構造化された縦断型 EHR データに対してゼロショット予測を実行でき、死亡率、在院期間、および30日再入院予測を、 few-shot 設定でベースラインと比較して約35%改善することを示している。
The inherent complexity of structured longitudinal Electronic Health Records (EHR) data poses a significant challenge when integrated with Large Language Models (LLMs), which are traditionally tailored for natural language processing. Motivated by the urgent need for swift decision-making during new disease outbreaks, where traditional predictive models often fail due to a lack of historical data, this research investigates the adaptability of LLMs, like GPT-4, to EHR data. We particularly focus on their zero-shot capabilities, which enable them to make predictions in scenarios in which they haven't been explicitly trained. In response to the longitudinal, sparse, and knowledge-infused nature of EHR data, our prompting approach involves taking into account specific EHR characteristics such as units and reference ranges, and employing an in-context learning strategy that aligns with clinical contexts. Our comprehensive experiments on the MIMIC-IV and TJH datasets demonstrate that with our elaborately designed prompting framework, LLMs can improve prediction performance in key tasks such as mortality, length-of-stay, and 30-day readmission by about 35\%, surpassing ML models in few-shot settings. Our research underscores the potential of LLMs in enhancing clinical decision-making, especially in urgent healthcare situations like the outbreak of emerging diseases with no labeled data. The code is publicly available at https://github.com/yhzhu99/llm4healthcare for reproducibility.
研究の動機と目的
- 構造化された縦断型 EHR データと非構造化 LLM プロンプトのギャップを、臨床的に情報を含むプロンプトを設計することで埋める。
- 実世界の EHR データセットを用いて、死亡率・在院期間・再入院予測タスクに対する LLM のゼロショット予測能力を評価する。
- 臨床予測における LLM の性能に影響を与えるデータレベル・タスクレベル・モデルレベルの要因を評価する。
- 公的コードと実データセットを用いて実用性と再現性を示し、新興疾病シナリオにおける迅速な意思決定を支援する。
提案手法
- LLMs を導くための5要素からなるプロンプトテンプレートを提案する:役割(role)、指示(instruction)、臨床コンテキスト(clinical context)、入力データ、出力指標(output indicator)。
- 構造化された縦断型 EHR データを、特徴毎(feature-wise)と受診毎(visit-wise)の2つの入力形式に自然言語へ変換し、その有効性を比較する。
- 欠損値の表現(nan)と LOCF 推定を比較して sparsity ハンドリングを調査する。
- 単位と基準範囲をプロンプトに含め、インコンテキスト例を用いて予測を固定化することで、知識を織り込んだ文脈を組み込む。
- 死亡率、30日再入院、在院日数のタスクと時間スパン全体を評価し、ゼロショット LLM を few-shot ML/DL ベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1RQ1: 縦断性、希薄性、知識注入を考慮した LLM 向けの効果的な EHR データ・プロンプトとは何か?
- RQ2RQ2: LLM は異なる時間範囲にわたる多様な臨床予測タスクを処理できるか、そしてプロンプトは時間的感度にどのように影響するか?
- RQ3RQ3: ゼロショットの LLM は、タスクとデータセットを跨いだ few-shot 設定で伝統的な ML/DL モデルとどう比較されるか?
主な発見
- 特徴毎入力形式は、病院内死亡予測において受診毎形式より AUROC および AUPRC が高い。
- 推定(補完)は LLM の性能を向上させるが、推定を行わない(NaNを使用)場合でも効果的であり、データセットごとに影響は異なる。
- プロンプトに単位と基準範囲を追加すると AUROC が有意に向上し(両方を用いるのが最良)、欠損予測を減らす。
- 1つまたは2つのインコンテキスト例が性能を著しく改善するが、例が多すぎるとプロンプト長と忘却により劣化する可能性がある。
- GPT-4 はゼロショット死亡予測で他のモデルを上回り、TJH で相対 AUROC 改善約35%、MIMIC-IV で約25%を達成;場合によっては完全に訓練されたベースラインの性能に近づく。
- GPT-4 はタスク全体で強力なゼロショット性能を示し、低データ設定でいくつかの ML/DL ベースラインを上回ることが多いが、マルチタスクの状況では性能がわずかに低下することがある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。