[论文解读] Prompting Large Language Models for Zero-Shot Clinical Prediction with Structured Longitudinal Electronic Health Record Data
该论文表明,通过专门设计的 prompting 框架,GPT-4 及其他大型语言模型可以对结构化纵向电子病历数据进行零-shot预测,在少量样本设定下,与基线相比,在死亡率、住院时长和 30 天再入院预测方面提升约 35%。
The inherent complexity of structured longitudinal Electronic Health Records (EHR) data poses a significant challenge when integrated with Large Language Models (LLMs), which are traditionally tailored for natural language processing. Motivated by the urgent need for swift decision-making during new disease outbreaks, where traditional predictive models often fail due to a lack of historical data, this research investigates the adaptability of LLMs, like GPT-4, to EHR data. We particularly focus on their zero-shot capabilities, which enable them to make predictions in scenarios in which they haven't been explicitly trained. In response to the longitudinal, sparse, and knowledge-infused nature of EHR data, our prompting approach involves taking into account specific EHR characteristics such as units and reference ranges, and employing an in-context learning strategy that aligns with clinical contexts. Our comprehensive experiments on the MIMIC-IV and TJH datasets demonstrate that with our elaborately designed prompting framework, LLMs can improve prediction performance in key tasks such as mortality, length-of-stay, and 30-day readmission by about 35\%, surpassing ML models in few-shot settings. Our research underscores the potential of LLMs in enhancing clinical decision-making, especially in urgent healthcare situations like the outbreak of emerging diseases with no labeled data. The code is publicly available at https://github.com/yhzhu99/llm4healthcare for reproducibility.
研究动机与目标
- 通过设计临床知情提示,将结构化纵向 EHR 数据与非结构化 LLM 提示之间的差距弥合。
- 使用真实世界的 EHR 数据集,评估 LLMs 在死亡、住院时长和再入院任务上的零-shot 预测能力。
- 评估影响临床预测中 LLM 表现的数据层面、任务层面和模型层面的因素。
- 展示使用公开代码和真实数据集的可行性和可复现性,以支持在新兴疾病情景中的快速决策。
提出的方法
- 提出一个包含五个要素的提示模板:角色、指令、临床背景、输入数据和输出指示,用以引导 LLMs。
- 使用两种输入格式将结构化纵向 EHR 数据转换为自然语言:特征维和就诊维;比较它们的有效性。
- 通过对比缺失值表示(nan)与 LOCF 插补,研究稀疏性处理。
- 通过在提示中包含单位和参考范围以及使用上下文中的示例来锚定预测,融入知识信息。
- 在任务(死亡、30 天再入院、住院时长)和时间跨度上进行评估,并将零-shot LLM 与少样本 ML/DL 基线进行对比。
实验结果
研究问题
- RQ1RQ1:在考虑纵向性、稀疏性和知识注入的情况下,构成对 LLMs 的有效 EHR 数据提示的要素是什么?
- RQ2RQ2:LLMs 是否能够处理跨不同时间跨度的多样化临床预测任务,提示如何影响时间敏感性?
- RQ3RQ3:零-shot LLMs 在少量样本设置下在不同任务和数据集上与传统 ML/DL 模型相比如何?
主要发现
- 特征维输入格式在院内死亡预测中比就诊维格式获得更好的 AUROC 和 AUPRC。
- 插补可以提升 LLM 表现,但不进行插补(使用 NaN)也可能有效,影响因数据集而异。
- 在提示中加入单位和参考范围显著提升 AUROC(两者皆有时最好),并减少缺失预测。
- 一个或两个上下文示例显著提升性能;示例过多可能因提示长度和遗忘问题导致性能下降。
- GPT-4 在零-shot死亡预测方面优于其他模型,在 TJH 上相对 AUROC 提升约 35%,在 MIMIC-IV 上约 25%;在某些情况下接近完全训练基线的性能。
- GPT-4 展示出跨任务的强零-shot性能,在低数据设置下常常超越某些 ML/DL 基线;然而多任务场景可能略微降低性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。