QUICK REVIEW

[論文レビュー] Prompting Large Language Models for Zero-Shot Clinical Prediction with Structured Longitudinal Electronic Health Record Data

Yinghao Zhu, Zixiang Wang|arXiv (Cornell University)|Jan 25, 2024

Machine Learning in Healthcare被引用数 8

ひとこと要約

本論文は、特別に設計されたプロンプト設計フレームワークを用いると、GPT-4 や他の LLM が構造化された縦断型 EHR データに対してゼロショット予測を実行でき、死亡率、在院期間、および30日再入院予測を、 few-shot 設定でベースラインと比較して約35%改善することを示している。

ABSTRACT

The inherent complexity of structured longitudinal Electronic Health Records (EHR) data poses a significant challenge when integrated with Large Language Models (LLMs), which are traditionally tailored for natural language processing. Motivated by the urgent need for swift decision-making during new disease outbreaks, where traditional predictive models often fail due to a lack of historical data, this research investigates the adaptability of LLMs, like GPT-4, to EHR data. We particularly focus on their zero-shot capabilities, which enable them to make predictions in scenarios in which they haven't been explicitly trained. In response to the longitudinal, sparse, and knowledge-infused nature of EHR data, our prompting approach involves taking into account specific EHR characteristics such as units and reference ranges, and employing an in-context learning strategy that aligns with clinical contexts. Our comprehensive experiments on the MIMIC-IV and TJH datasets demonstrate that with our elaborately designed prompting framework, LLMs can improve prediction performance in key tasks such as mortality, length-of-stay, and 30-day readmission by about 35\%, surpassing ML models in few-shot settings. Our research underscores the potential of LLMs in enhancing clinical decision-making, especially in urgent healthcare situations like the outbreak of emerging diseases with no labeled data. The code is publicly available at https://github.com/yhzhu99/llm4healthcare for reproducibility.

研究の動機と目的

構造化された縦断型 EHR データと非構造化 LLM プロンプトのギャップを、臨床的に情報を含むプロンプトを設計することで埋める。
実世界の EHR データセットを用いて、死亡率・在院期間・再入院予測タスクに対する LLM のゼロショット予測能力を評価する。
臨床予測における LLM の性能に影響を与えるデータレベル・タスクレベル・モデルレベルの要因を評価する。
公的コードと実データセットを用いて実用性と再現性を示し、新興疾病シナリオにおける迅速な意思決定を支援する。

提案手法

LLMs を導くための5要素からなるプロンプトテンプレートを提案する：役割（role）、指示（instruction）、臨床コンテキスト（clinical context）、入力データ、出力指標（output indicator）。
構造化された縦断型 EHR データを、特徴毎（feature-wise）と受診毎（visit-wise）の2つの入力形式に自然言語へ変換し、その有効性を比較する。
欠損値の表現（nan）と LOCF 推定を比較して sparsity ハンドリングを調査する。
単位と基準範囲をプロンプトに含め、インコンテキスト例を用いて予測を固定化することで、知識を織り込んだ文脈を組み込む。
死亡率、30日再入院、在院日数のタスクと時間スパン全体を評価し、ゼロショット LLM を few-shot ML/DL ベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1RQ1: 縦断性、希薄性、知識注入を考慮した LLM 向けの効果的な EHR データ・プロンプトとは何か？
RQ2RQ2: LLM は異なる時間範囲にわたる多様な臨床予測タスクを処理できるか、そしてプロンプトは時間的感度にどのように影響するか？
RQ3RQ3: ゼロショットの LLM は、タスクとデータセットを跨いだ few-shot 設定で伝統的な ML/DL モデルとどう比較されるか？

主な発見

特徴毎入力形式は、病院内死亡予測において受診毎形式より AUROC および AUPRC が高い。
推定（補完）は LLM の性能を向上させるが、推定を行わない（NaNを使用）場合でも効果的であり、データセットごとに影響は異なる。
プロンプトに単位と基準範囲を追加すると AUROC が有意に向上し（両方を用いるのが最良）、欠損予測を減らす。
1つまたは2つのインコンテキスト例が性能を著しく改善するが、例が多すぎるとプロンプト長と忘却により劣化する可能性がある。
GPT-4 はゼロショット死亡予測で他のモデルを上回り、TJH で相対 AUROC 改善約35%、MIMIC-IV で約25%を達成；場合によっては完全に訓練されたベースラインの性能に近づく。
GPT-4 はタスク全体で強力なゼロショット性能を示し、低データ設定でいくつかの ML/DL ベースラインを上回ることが多いが、マルチタスクの状況では性能がわずかに低下することがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。