[论文解读] Modeling Missing Data in Clinical Time Series with RNNs
本文表明将缺失视为特征可提升基于 RNN 的不规则儿科 ICU 时序多标签诊断分类性能,优于以插补为主的基线方法。研究还显示线性模型受益于手工设计的缺失数据特征,并且单独的缺失信息对某些诊断具有预测性。
We demonstrate a simple strategy to cope with missing data in sequential inputs, addressing the task of multilabel classification of diagnoses given clinical time series. Collected from the pediatric intensive care unit (PICU) at Children's Hospital Los Angeles, our data consists of multivariate time series of observations. The measurements are irregularly spaced, leading to missingness patterns in temporally discretized sequences. While these artifacts are typically handled by imputation, we achieve superior predictive performance by treating the artifacts as features. Unlike linear models, recurrent neural networks can realize this improvement using only simple binary indicators of missingness. For linear models, we show an alternative strategy to capture this signal. Training models on missingness patterns only, we show that for some diseases, what tests are run can be as predictive as the results themselves.
研究动机与目标
- 激发并处理来自 PICU 数据的临床时序中的不规则、非随机缺失问题。
- 评估缺失数据指示器是否能提升多标签诊断的预测性能。
- 比较带有插补策略的 RNN、MLP 和线性模型在工程特征与原始特征上的表现。
提出的方法
- 在按小时离散化的临床序列上采用基于 LSTM 的 RNN 进行多标签诊断。
- 在每个时间步为每个特征增加二进制缺失指示器作为输入。
- 探索简单插补(零填充、前向填充),并与仅使用指示器或与指示器结合的情形进行比较。
- 引入基于指示器序列和时间窗口的手工设计的缺失数据特征。
- 使用目标复制在序列各步提供局部监督,并在最终步骤计算损失进行训练。
实验结果
研究问题
- RQ1将缺失情况作为输入特征建模,是否相较于标准插补策略提升 ICU 表型的预测性能?
- RQ2RNN 能否有效利用缺失数据指示器来捕捉临床时序中的非随机缺失模式?
- RQ3手工设计的缺失数据特征是否能提升线性模型和 MLP 的性能,与 RNN 的表现相比如何?
- RQ4仅靠缺失数据信息(仅指示器)对某些诊断是否具有预测性?
主要发现
- 采用零填充插补并带有缺失数据指示器的 LSTM 获得最佳的整体微观 AUC 为 0.8730,宏观 AUC 为 0.8250。
- 在 RNN、MLP 和线性模型中加入缺失数据指示器均提升了性能,其中对神经网络模型的提升最显著。
- 线性模型从手工设计的缺失数据特征中获得显著收益,在某些设置下接近神经网络的性能。
- 某些诊断仅凭缺失模式就具有较高的预测信号,提示存在非随机的信息性缺失。
- RNN 可能隐式地从零填充输入中学习识别缺失值,表明数据与缺失之间存在复杂的相互作用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。