[论文解读] Recurrent Neural Networks for Multivariate Time Series with Missing Values
GRU-D 是一种基于 GRU 的模型,通过在输入和隐藏状态中加入掩码、时间间隔和可训练的衰减来显式建模多变量时间序列中的信息缺失,以提高医疗数据中的预测任务。
Multivariate time series data in practical applications, such as health care, geoscience, and biology, are characterized by a variety of missing values. In time series prediction and other related tasks, it has been noted that missing values and their missing patterns are often correlated with the target labels, a.k.a., informative missingness. There is very limited work on exploiting the missing patterns for effective imputation and improving prediction performance. In this paper, we develop novel deep learning models, namely GRU-D, as one of the early attempts. GRU-D is based on Gated Recurrent Unit (GRU), a state-of-the-art recurrent neural network. It takes two representations of missing patterns, i.e., masking and time interval, and effectively incorporates them into a deep model architecture so that it not only captures the long-term temporal dependencies in time series, but also utilizes the missing patterns to achieve better prediction results. Experiments of time series classification tasks on real-world clinical datasets (MIMIC-III, PhysioNet) and synthetic datasets demonstrate that our models achieve state-of-the-art performance and provides useful insights for better understanding and utilization of missing values in time series analysis.
研究动机与目标
- 说服人们在多变量时间序列数据中利用信息性缺失的重要性,特别是在医疗保健领域。
- 开发一个基于 GRU 的模型(GRU-D),通过掩码和时间间隔来整体处理缺失值。
- 展示 GRU-D 在真实临床数据集和合成数据上,优于 GRU 基线和非 RNN 方法。
- 提供关于缺失模式如何帮助预测的见解,并为具有缺失数据的时间序列提供一个框架。
提出的方法
- 引入掩码 m_t 和时间间隔 δ_t,以表示缺失性和观测的时效性。
- 通过添加可训练的衰减机制 γ_x 和 γ_h,使输入和隐藏状态随上次观测时间的增加而衰减向均值/默认值,来提出 GRU-D。
- 将掩码向量 m_t 和衰减项直接整合到 GRU 更新方程(z_t, r_t, h_t)中,以联合学习预测与缺失处理。
- 通过 γ_t = exp(-max(0, W_γ δ_t + b_γ)) 定义 γ_t,以使衰减保持在 (0,1) 内,并允许对不同变量的衰减(输入衰减的对角线)进行区分。
- 允许两条衰减路径:输入衰减 γ_x,用于观测到的特征衰减向经验均值;以及影响 h_{t-1} 的隐藏状态衰减 γ_h。
- 将掩码 m_t 整合到 GRU 门控中,以告知模型在每一步哪些特征被观测到。
实验结果
研究问题
- RQ1信息性缺失模式是否能提升医疗数据的时间序列分类性能?
- RQ2在具有缺失值的真实世界多变量临床时间序列数据上,GRU-D 是否优于 GRU 的变体和非 RNN 基线?
- RQ3输入衰减和隐藏状态衰减如何提升预测性能并提高对缺失模式的可解释性?
- RQ4在只有部分时间序列可用时,GRU-D 是否能够进行在线/早期预测?
主要发现
- 与 GRU 基线和非 RNN 模型相比,GRU-D 在 MIMIC-III 和 PhysioNet 的死亡率和 ICD-9 预测任务上获得最佳的平均 AUC。
- 在合成手势数据上,随着缺失性信息性增强,GRU-D 表现超越基线,证明对信息性缺失模式的有效建模。
- GRU-D 提升早期预测性能,在数据量较少时接近或与晚期非 RNN 基线相当,并且在观察到更多时间步时,对在线预测表现优越。
- 输入和隐藏状态的衰减揭示了变量级别的缺失影响,对缺失率较低的变量影响更明显,表明对信息性缺失的处理具有意义。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。