QUICK REVIEW

[论文解读] Benchmark of Deep Learning Models on Large Healthcare MIMIC Datasets

Sanjay Purushotham, Chuizheng Meng|arXiv (Cornell University)|Oct 23, 2017

Machine Learning in Healthcare参考文献 34被引用 58

一句话总结

本文在 MIMIC-III 上对深度学习模型在死亡率、住院时长和 ICD-9 代码组预测进行基准测试，并将其与集成方法和评分系统进行比较，结果显示深度模型在基线方法上通常具有更优表现，尤其是在原始时间序列数据的情况下。

ABSTRACT

Deep learning models (aka Deep Neural Networks) have revolutionized many fields including computer vision, natural language processing, speech recognition, and is being increasingly used in clinical healthcare applications. However, few works exist which have benchmarked the performance of the deep learning models with respect to the state-of-the-art machine learning models and prognostic scoring systems on publicly available healthcare datasets. In this paper, we present the benchmarking results for several clinical prediction tasks such as mortality prediction, length of stay prediction, and ICD-9 code group prediction using Deep Learning models, ensemble of machine learning models (Super Learner algorithm), SAPS II and SOFA scores. We used the Medical Information Mart for Intensive Care III (MIMIC-III) (v1.4) publicly available dataset, which includes all patients admitted to an ICU at the Beth Israel Deaconess Medical Center from 2001 to 2012, for the benchmarking tasks. Our results show that deep learning models consistently outperform all the other approaches especially when the `raw' clinical time series data is used as input features to the models.

研究动机与目标

评估在大规模 MIMIC-III 医疗数据上，深度学习模型在多项预后任务（死亡率、住院时长、ICD-9 代码组预测）中的性能。
将深度学习方法与传统机器学习模型、集成 Super Learner 方法以及公认的 ICU 评分系统（SAPS-II、SOFA）进行比较。
评估输入特征设计（原始时间序列 vs 处理后特征）对预测性能的影响。

提出的方法

在 MIMIC-III（及 CareVent 子集）上基准三项临床预测任务：住院死亡率、短期死亡率、长期死亡率，以及 ICD-9 代码组预测，再加上将住院时长作为回归预测。
使用三组特征集，包括处理后的类似 SAPS-II 的特征、原始的 SAPS-II 相关特征，以及来自多张表的大规模原始特征集；对时间序列进行以小时为单位的采样和插补。
实现深度学习模型，包括前馈网络和循环网络（GRU/LSTM），以及将时间维输入与非时间维输入结合的多模态深度学习架构。
与传统机器学习模型的 Super Learner 集成以及与如 SAPS-II 和 SOFA 这样的评分系统进行比较。
使用 MIMIC-III v1.4 数据以及 MIMIC-III CareVue 子集，队列限定为首次入 ICU 的成人患者（>15 岁）。
描述数据预处理步骤，包括单位归一化、处理多值、插补，以及跨 24 小时和 48 小时窗口的特征提取。

实验结果

研究问题

RQ1在死亡率预测、住院时长和 ICD-9 代码组预测方面，深度学习模型是否优于使用 MIMIC-III 数据的传统机器学习模型和 ICU 评分系统？
RQ2深度学习模型在原始时间序列特征与像 SAPS-II 派生特征这样的处理后特征集上的表现如何？
RQ3使用 MIMIC-III 与 CareVue 子集对模型性能的比较影响有多大？

主要发现

在使用原始时间序列数据时，深度学习模型在所有基准测试任务中始终优于其他方法。
处理过的 SAPS-II 特征集能够得到竞争性结果，但原始特征输入使得更深的模型能够提取更具预测力的信息。
该研究在 MIMIC-III 数据上针对多种预测目标对 Super Learner 集成与评分系统进行了全面的基准测试。
大规模的 MIMIC-III 数据集（及 CareVue 子集）支持对 ICU 预后任务的深度学习模型进行稳健评估。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。