QUICK REVIEW

[论文解读] Deep Learning for Multivariate Time Series Imputation: A Survey

Jun Wang, Wenjie Du|arXiv (Cornell University)|Feb 6, 2024

Time Series Analysis and Forecasting被引用 17

一句话总结

对多变量时间序列中缺失值填充的深度学习方法进行全面的分类和实证评估，比较预测性与生成性方法在多个数据集和下游任务上的表现。

ABSTRACT

Missing values are ubiquitous in multivariate time series (MTS) data, posing significant challenges for accurate analysis and downstream applications. In recent years, deep learning-based methods have successfully handled missing data by leveraging complex temporal dependencies and learned data distributions. In this survey, we provide a comprehensive summary of deep learning approaches for multivariate time series imputation (MTSI) tasks. We propose a novel taxonomy that categorizes existing methods based on two key perspectives: imputation uncertainty and neural network architecture. Furthermore, we summarize existing MTSI toolkits with a particular emphasis on the PyPOTS Ecosystem, which provides an integrated and standardized foundation for MTSI research. Finally, we discuss key challenges and future research directions, which give insight for further MTSI research. This survey aims to serve as a valuable resource for researchers and practitioners in the field of time series analysis and missing data imputation tasks.A well-maintained MTSI paper and tool list are available at https://github.com/WenjieDu/Awesome_Imputation.

研究动机与目标

对深度 MSTI 方法进行两轴分类：插补的不确定性（预测性 vs 生成性）和神经网络架构（RNN、CNN、GNN、注意力、VAE、GAN、扩散）。
评估插补质量对下游任务的影响，并通过在真实数据集上的实验提供实用指南。
总结每个方法类别的优点/局限，并突出 MSTI 中尚未解决的研究问题。

提出的方法

提出基于插补不确定性和神经网络架构的分类法。
回顾并对方法进行分类：基于 RNN、基于 CNN、基于 GNN、基于注意力、基于 VAE、基于 GAN、以及基于扩散。
为预测性（确定性）和生成性（基于分布）插补定义学习目标。
使用 PyPOTS 工具包开展实证实验，比较插补性能和下游任务的提升。
提供包含三个真实世界数据集和多种插补方法的基准。
讨论计算复杂度及方法选择的实际指南。

实验结果

研究问题

RQ1在多变量时间序列的插补中，主流的深度学习方法是什么？它们在不确定性处理和架构方面有何区别？
RQ2预测性与生成性插补方法在不同数据集和下游任务上的表现如何？
RQ3在准确性、效率和可扩展性方面，MSTI 方法有哪些实际权衡？

主要发现

方法	Air MAE	Air MSE	PhysioNet2012 MAE	PhysioNet2012 MSE	ETTm1 MAE	ETTm1 MSE
LOCF	0.206	0.279	0.411	0.569	0.135	0.072
M-RNN	0.524	0.648	0.674	0.864	0.651	1.074
GP-VAE	0.280	0.266	0.400	0.433	0.290	0.178
BRITS	0.142	0.129	0.246	0.325	0.124	0.046
USGAN	0.141	0.132	0.250	0.306	0.127	0.048
CSDI	0.105	0.153	0.211	0.260	0.157	0.292
TimesNet	0.159	0.172	0.266	0.272	0.113	0.027
Transformer	0.163	0.160	0.209	0.225	0.133	0.035
SAITS	0.133	0.128	0.202	0.218	0.115	0.030

没有任何单一方法在所有数据集上占优；性能随数据集和缺失模式而异。
在高缺失率数据（PhysioNet2012）上，深度学习插补方法优于简单基线，尤其超过 LOCF。
生成模型（VAE/GAN/扩散）在捕捉不确定性方面表现出色，但在训练稳定性和计算成本上存在差异。
某些方法（如 SAITS、TimesNet、CSDI）在使用插补数据的分类任务中实现了强劲的下游任务提升。
下游分类器性能（PR-AUC、ROC-AUC）受更好插补质量的益处影响，例如 SAITS 在 PhysioNet2012 上显示提升。
研究提供了实际的复杂度比较，并再次强调需要将下游任务纳入的统一学习目标。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。