[论文解读] Diffusion-based Time Series Imputation and Forecasting with Structured State Space Models
本文提出 SSSD,一种基于扩散模型的插补方法,使用结构化状态空间模型来捕捉长期时间依赖,在多种缺失情形和预测任务中达到最先进的结果。
The imputation of missing values represents a significant obstacle for many real-world data analysis pipelines. Here, we focus on time series data and put forward SSSD, an imputation model that relies on two emerging technologies, (conditional) diffusion models as state-of-the-art generative models and structured state space models as internal model architecture, which are particularly suited to capture long-term dependencies in time series data. We demonstrate that SSSD matches or even exceeds state-of-the-art probabilistic imputation and forecasting performance on a broad range of data sets and different missingness scenarios, including the challenging blackout-missing scenarios, where prior approaches failed to provide meaningful results.
研究动机与目标
- 通过将条件扩散模型与结构化状态空间模型相结合来处理时间序列中的缺失数据,以捕捉长期依赖关系。
- 引入 SSSD 及其变体,在具有挑战性的缺失模式(RM、RBM、BM、TF)下提升插补质量。
- 在 ECG、MuJoCo、Electricity 和 Solar 数据集上展示定量与定性提升,相对于强基线。
- 提供分析,探讨仅对缺失区域施加扩散噪声对性能的影响。
提出的方法
- 采用条件扩散建模,其中反向去噪过程以带有插补掩码的输入为条件。
- 在类似 DiffWave 的扩散架构中,用结构化状态空间(S4)层替代传统的时间块。
- 使用仅对插补区域限定的扩散噪声(D1 设置),以提高插补的真实感。
- 比较若干架构变体:SSSD-S4、SSSD-SA、CSDI-S4,以及如 DiffWave 和 CSDI 之类的扩散基线。
- 在观测的真实区域使用均方误差损失进行训练,并对样本中的概率性插补(分位数)进行评估。
实验结果
研究问题
- RQ1基于扩散的时间序列插补结合SSMs,是否能够在多样的缺失模式下相比现有的扩散与非扩散插补方法取得更高的精度?
- RQ2将扩散噪声限制在需要插补的区域(D1)对插补质量的影响,与将噪声应用于整个序列(D0)相比有何不同?
- RQ3结构化状态空间层(S4)是否提升了对时间序列插补与预测中长程依赖的建模能力?
- RQ4在 RM、RBM、BM 和 TF 任务中,SSSD 变体在真实世界数据集(ECG、MuJoCo、Electricity、Solar)上的表现如何?
- RQ5在插补模型中使用双向上下文是否适用于预测任务,还是会带来数据泄露风险?
主要发现
| 模型 | MAE | RMSE |
|---|---|---|
| 20% RM on PTB-XL LAMC | 0.0678 | 0.1309 |
| 20% RM on PTB-XL CSDI | 0.0038±2e-6 | 0.0189±5e-5 |
| 20% RM on PTB-XL DiffWave | 0.0043±4e-4 | 0.0177±4e-4 |
| 20% RM on PTB-XL CSDI^{S4} | 0.0031±1e-7 | 0.0171±6e-4 |
| 20% RM on PTB-XL SSSD^{SA} | 0.0045±3e-7 | 0.0181±4e-6 |
| 20% RM on PTB-XL SSSD^{S4} | 0.0034±4e-6 | 0.0119±1e-4 |
| 20% RBM on PTB-XL LAMC | 0.0759 | 0.1498 |
| 20% RBM on PTB-XL CSDI | 0.0186±1e-5 | 0.0435±2e-4 |
| 20% RBM on PTB-XL DiffWave | 0.0250±1e-3 | 0.0808±5e-3 |
| 20% RBM on PTB-XL CSDI^{S4} | 0.0222±2e-5 | 0.0573±1e-3 |
| 20% RBM on PTB-XL SSSD^{SA} | 0.0170±1e-4 | 0.0492±1e-2 |
| 20% RBM on PTB-XL SSSD^{S4} | 0.0103±3e-3 | 0.0226±9e-4 |
| 20% BM on PTB-XL LAMC | 0.0840 | 0.1171 |
| 20% BM on PTB-XL CSDI | 0.1054±4e-5 | 0.2254±7e-5 |
| 20% BM on PTB-XL DiffWave | 0.0451±7e-4 | 0.1378±5e-3 |
| 20% BM on PTB-XL CSDI^{S4} | 0.0792±2e-4 | 0.1879±1e-4 |
| 20% BM on PTB-XL SSSD^{SA} | 0.0435±3e-3 | 0.1167±1e-2 |
| 20% BM on PTB-XL SSSD^{S4} | 0.0324±3e-3 | 0.0832±8e-3 |
- SSSD-S4 在 PTB-XL ECG 数据的 RM、RBM 和 BM 缺失下通常优于竞争对手的插补方法,MAE/RMSE 明显低于 CSDI 和 DiffWave 基线。
- 仅对插补区域应用扩散噪声(D1)比对整个样本应用噪声(D0)产生更优结果。
- 在 blackout 缺失场景中,SSSD-S4 获得特别大的提升,与 PTB-XL 上的 BM 相比,MAE 比 CSDI 下降超过 50%。
- 在 MuJoCo 数据上,SSSD-S4 在 70–90% RM 场景下与基线相当或更优,在最高缺失率(90%)时显示出显著提升。
- 对于 Electricity 数据,SSSD-S4 在 10–50% RM 范围内显著提升 RM 插补,降低 MAE 和 RMSE,且常常优于 CSDI-S4 和 SAITS 基线。
- 在 Solar 预测中,SSSD-S4 相对于最强基线(TLAE)实现 27% 的 MSE 减少,并在所报告的指标上超过 CSDI。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。