[论文解读] The Shaky Foundations of Clinical Foundation Models: A Survey of Large Language Models and Foundation Models for EMRs
这项综述分析在非影像型EMR数据上训练的基础模型,揭示数据集与评估的差距,并提出一个面向医疗保健的评估框架。
The successes of foundation models such as ChatGPT and AlphaFold have spurred significant interest in building similar models for electronic medical records (EMRs) to improve patient care and hospital operations. However, recent hype has obscured critical gaps in our understanding of these models' capabilities. We review over 80 foundation models trained on non-imaging EMR data (i.e. clinical text and/or structured data) and create a taxonomy delineating their architectures, training data, and potential use cases. We find that most models are trained on small, narrowly-scoped clinical datasets (e.g. MIMIC-III) or broad, public biomedical corpora (e.g. PubMed) and are evaluated on tasks that do not provide meaningful insights on their usefulness to health systems. In light of these findings, we propose an improved evaluation framework for measuring the benefits of clinical foundation models that is more closely grounded to metrics that matter in healthcare.
研究动机与目标
- 调查在非影像型 EMR 数据(临床文本和结构化数据)上训练的基础模型的全景。
- 建立面向 EMR 的模型的架构、训练数据来源和潜在用例的分类体系。
- 批判性评估当前的评估实践及其与卫生系统收益的相关性。
- 提出与医疗保健中重要指标相一致的改进评估框架。
提出的方法
- 对超过80个在EMR相关数据(非影像)上训练的基础模型进行评审。
- 开展分类法开发,详细说明架构、训练数据和用例。
- 对用于训练的数据集(如 MIMIC-III)和公开生物医学语料库(如 PubMed)的批判性分析。
- 评估任务及其对卫生系统洞察力有限缺乏的评估。
- 提出一个基于医疗保健相关指标的评估框架。
实验结果
研究问题
- RQ1在以 EMR 为焦点的基础模型中,占主导地位的架构和训练数据来源有哪些?
- RQ2这些模型当前的评估方式是如何进行的,任务是否反映了真实的医疗保健需求?
- RQ3模型能力与实际卫生系统收益之间存在哪些差距?
- RQ4如何将评估重新对齐到对医疗保健结果重要的指标?
主要发现
- 大多数模型在规模较小、范围狭窄的数据集或广义公开语料上训练。
- 评估通常使用无法为卫生系统提供有意义洞察的任务。
- 模型评估与现实世界的医疗保健收益之间存在错位。
- 需要一个改进的、以医疗保健为基础的评估框架来衡量实际价值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。