QUICK REVIEW

[论文解读] Learning from Irregularly-Sampled Time Series: A Missing Data Perspective

Steven Cheng-Xian Li, Benjamin M. Marlin|arXiv (Cornell University)|Aug 17, 2020

Machine Learning in Healthcare被引用 21

一句话总结

本文提出了一种新颖的编码器-解码器框架，通过将不规则采样的多变量时间序列建模为缺失数据问题，实现从不规则采样时间序列中进行学习。该框架引入了连续卷积层，以高效编码可变长度、非均匀时间序列，并结合变分自编码器（P-VAE）和生成对抗网络（P-BiGAN）实现联合表征学习与生成，其分类性能具有竞争力，且训练速度相比最先进的模型（如Latent ODE）最高快50倍。

ABSTRACT

Irregularly-sampled time series occur in many domains including healthcare. They can be challenging to model because they do not naturally yield a fixed-dimensional representation as required by many standard machine learning models. In this paper, we consider irregular sampling from the perspective of missing data. We model observed irregularly-sampled time series data as a sequence of index-value pairs sampled from a continuous but unobserved function. We introduce an encoder-decoder framework for learning from such generic indexed sequences. We propose learning methods for this framework based on variational autoencoders and generative adversarial networks. For continuous irregularly-sampled time series, we introduce continuous convolutional layers that can efficiently interface with existing neural network architectures. Experiments show that our models are able to achieve competitive or better classification results on irregularly-sampled multivariate time series compared to recent RNN models while offering significantly faster training times.

研究动机与目标

解决标准机器学习模型所需固定维表示下，不规则采样时间序列建模的挑战。
将不规则采样重新定义为缺失数据问题，其中观测数据是潜在连续函数的部分观测。
开发一种可扩展的端到端深度学习框架，能够联合学习潜在时间过程、推断潜在表征，并执行时间序列分类。
通过专为非均匀时间序列设计的连续卷积层，实现与标准神经网络的高效集成。
在预测准确率和训练速度方面，超越现有的基于RNN和基于ODE的模型。

提出的方法

该框架将时间序列建模为时间-值对 (t_i, x_i)，将未观测的时间点视为连续函数 f: [0,T] → ℝ 中的缺失数据。
采用编码器-解码器架构，其中编码器将不规则观测映射到潜在分布，解码器则从潜在码重建完整函数。
引入连续卷积层，通过在均匀分布的参考点上应用分段线性核来处理不规则采样数据，实现可微分、可并行化的特征提取。
P-VAE变体采用重要性加权自编码器（IWAE）进行变分推断，以近似潜在函数的真实后验分布。
P-BiGAN变体采用基于GAN的方法，训练判别器以区分真实与生成的时间序列，从而在缺失数据场景下提升生成质量，优于现有GAN模型。
该框架与下游分类器联合训练，支持分类任务的端到端学习。

实验结果

研究问题

RQ1不规则采样时间序列能否被有效建模为缺失数据问题，从而支持可扩展的深度学习？
RQ2连续卷积层能否提供一种高效且可微分的方法，将非均匀时间序列嵌入到固定维表示中？
RQ3所提出的P-VAE与P-BiGAN框架是否能在不规则时间序列上实现具有竞争力的分类性能，同时相比基于RNN和基于ODE的模型显著降低训练时间？
RQ4在具有高缺失率的真实世界医疗时间序列上，该框架的性能与最先进的模型（如Latent ODE和GRU-D）相比如何？
RQ5仅使用编码器和分类器的非生成基线模型，能否在高度不完整的时序数据上超越传统RNN模型？

主要发现

Cont P-BiGAN在MIMIC-III死亡率预测任务中取得了86.05%的最高AUC，优于Latent ODE（85.71%）和GRU-D（83.88%）。
Cont P-VAE实现了85.52%的AUC，表现出色，且训练速度比Latent ODE快50倍以上。
Cont P-BiGAN每轮训练耗时0.22小时，而Latent ODE为2.62小时，尽管模型复杂度更高，仍实现了超过10倍的加速。
非生成的Cont Classifier实现了84.87%的AUC，优于M-RNN（83.87%）和GRU-D（83.88%），证明了连续卷积编码器本身的有效性。
连续卷积层实现了高度可并行化的计算，与基于RNN和ODE的模型相比，训练时间降低了数量级。
该框架在高缺失率（MIMIC-III中平均缺失率为92%）下表现稳健，证明了其在真实临床数据上的强泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。