Skip to main content
QUICK REVIEW

[论文解读] Rethinking clinical prediction: Why machine learning must consider year of care and feature aggregation

Bret Nestor, Matthew B. A. McDermott|arXiv (Cornell University)|Nov 30, 2018
Machine Learning in Healthcare参考文献 15被引用 30
一句话总结

本论文表明,使用随机化日期的去标识化电子健康记录(EHR)数据(如 MIMIC-III)进行训练的机器学习模型,由于未考虑临床实践的变化,其性能会随时间显著下降。通过引入护理年份和临床意义明确的特征聚合,模型能够保持稳定的性能(例如,在死亡率预测中避免了 0.3 的 AUC 下降),优于在测试未来数据时性能下降的原始 itemid 表示方法。

ABSTRACT

Machine learning for healthcare often trains models on de-identified datasets with randomly-shifted calendar dates, ignoring the fact that data were generated under hospital operation practices that change over time. These changing practices induce definitive changes in observed data which confound evaluations which do not account for dates and limit the generalisability of date-agnostic models. In this work, we establish the magnitude of this problem on MIMIC, a public hospital dataset, and showcase a simple solution. We augment MIMIC with the year in which care was provided and show that a model trained using standard feature representations will significantly degrade in quality over time. We find a deterioration of 0.3 AUC when evaluating mortality prediction on data from 10 years later. We find a similar deterioration of 0.15 AUC for length-of-stay. In contrast, we demonstrate that clinically-oriented aggregates of raw features significantly mitigate future deterioration. Our suggested aggregated representations, when retrained yearly, have prediction quality comparable to year-agnostic models.

研究动机与目标

  • 调查在类似 MIMIC-III 的去标识化 EHR 数据集中对日期进行随机化处理是否会损害模型评估和泛化能力的有效性。
  • 评估临床实践演变(如 EHR 系统变更)对机器学习模型随时间性能的影响。
  • 评估基于临床知识的特征聚合是否能缓解在日期随机化数据上训练的预测模型的性能退化。
  • 比较在不同训练模式下,基于原始 itemid 的特征与聚合后的临床有意义特征的鲁棒性。

提出的方法

  • 在 MIMIC-III 数据集中加入实际的护理年份,以实现对模型性能的时间序列评估。
  • 使用随机森林分类器,结合简单插补方法(前向填充、缺失值指示符、距上次观测的时间)处理缺失数据。
  • 比较两种数据表示方式:原始 itemid 特征与基于专家定义分组的临床聚合特征(如分组的实验室检查值)。
  • 在三种训练模式下评估模型:仅在早期年份进行一次训练、在所有先前年份上持续训练、仅在前一年进行短期训练。
  • 采用 5 折交叉验证,并使用随机搜索进行超参数调优,以最大化 AUROC。
  • 使用 Wilcoxon 符号秩检验评估不同特征表示之间性能差异的统计显著性。

实验结果

研究问题

  • RQ1在 MIMIC-III 数据中对日期进行随机化处理,是否会导致在后续数据上评估时对模型性能的高估?
  • RQ2当模型在未考虑临床实践演变的日期随机化数据上进行训练时,其性能随时间如何退化?
  • RQ3基于临床驱动的特征聚合在多大程度上能减少死亡率和住院时长预测任务中的性能退化?
  • RQ4使用聚合特征进行年份特定的再训练,能否实现与年份无关模型相当的性能?
  • RQ5模型性能是否迅速饱和,表明在当前的特征表示下,死亡率预测可能是一个过于简单的任务?

主要发现

  • 在 2001–2002 年数据上训练、并在 2012 年数据上测试的原始 itemid 特征模型,在死亡率预测中 AUC 下降了 0.3。
  • 在相同时间段内,基于原始 itemid 特征的住院时长预测模型 AUC 下降了 0.15,表明存在显著的性能漂移。
  • 临床聚合特征表示显著减少了性能退化,在所有评估年份中 AUROC 均保持在基线性能的 0.03 以内。
  • 仅使用 2001–2002 年数据的 10%(220 名患者)训练的随机森林模型,在 10 年后对死亡率预测的 AUROC 达到 0.692 ± 0.032,表明性能迅速饱和。
  • 格拉斯哥昏迷评分单独即可在 24 小时数据上实现 AUROC > 0.77,表明单一特征可能主导预测性能。
  • 唯一在 2008 年 EHR 系统迁移(CareVue 到 Metavision)期间仍保持稳定性能的模型,是使用所有先前数据训练的临床聚合特征表示;而原始 itemid 模型则无法恢复性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。