Skip to main content
QUICK REVIEW

[论文解读] Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting

Kashif Rasul, Calvin Seward|arXiv (Cornell University)|Jan 28, 2021
Time Series Analysis and Forecasting参考文献 42被引用 43
一句话总结

TimeGrad 是一种用于多变量时间序列的自回归扩散概率模型,在每一步对未来分布进行采样,实现在六个真实世界数据集上的最先进的概率预测。

ABSTRACT

In this work, we propose exttt{TimeGrad}, an autoregressive model for multivariate probabilistic time series forecasting which samples from the data distribution at each time step by estimating its gradient. To this end, we use diffusion probabilistic models, a class of latent variable models closely connected to score matching and energy-based methods. Our model learns gradients by optimizing a variational bound on the data likelihood and at inference time converts white noise into a sample of the distribution of interest through a Markov chain using Langevin sampling. We demonstrate experimentally that the proposed autoregressive denoising diffusion model is the new state-of-the-art multivariate probabilistic forecasting method on real-world data sets with thousands of correlated dimensions. We hope that this method is a useful tool for practitioners and lays the foundation for future research in this area.

研究动机与目标

  • 为相关的时间序列提供多变量概率预测的动机,并解决高维下可处理似然性的局限性。
  • 提出 TimeGrad,一种自回归的能量基模型,使用扩散过程来建模逐步分布,条件于过去数据和协变量。
  • 利用 RNN(LSTM/GRU)对历史进行编码,并对基于扩散的发射模型进行条件化。
  • 使用数据似然的变分界来训练,并使用 Langevin 动力学进行未来轨迹的采样。
  • 在六个具有数千维度的真实世界数据集上,与多种基线方法比较评估 TimeGrad。

提出的方法

  • 采用扩散概率建模来学习下一时间步分布的对数密度梯度。
  • 使用自回归 RNN 条件的扩散模型,将多变量条件分布按时间分解。
  • 通过一个变分界来训练,化简为真噪声与预测噪声之间的加权平方误差,条件于 RNN 隐状态。
  • 使用类似 Langevin 的退火采样从白噪声生成未来时间步。
  • 通过上下文窗口均值对时间序列进行归一化以稳定训练,并对时间相关和非时间相关特征应用协变量嵌入。
  • 利用残差膨胀卷积网络在扩散步骤下参数化噪声预测器 εθ。

实验结果

研究问题

  • RQ1TimeGrad 是否能够在给定过去和协变量的情况下,准确建模并从未来多变量时间步的完整条件分布中进行采样?
  • RQ2在多样的真实世界数据集上,与最先进多变量概率预测方法相比,TimeGrad 的表现如何?
  • RQ3扩散长度 N 对预测准确性和采样效率的影响是什么?
  • RQ4通过上下文窗口均值进行归一化是否能提升预测性能和稳定性?
  • RQ5TimeGrad 能否处理具有数千维相关性的高维时间序列?

主要发现

方法交易所太阳能电力交通出租车维基百科
TimeGrad0.006 ± 0.0010.287 ± 0.0200.0206 ± 0.0010.044 ± 0.0060.114 ± 0.0200.0485 ± 0.002
VAR0.005 ± 0.0000.83 ± 0.0060.039 ± 0.00050.29 ± 0.005--
GP Copula0.007 ± 0.0000.337 ± 0.0240.0245 ± 0.0020.078 ± 0.0020.208 ± 0.1830.086 ± 0.004
Transformer MAF0.005 ± 0.0030.301 ± 0.0140.0207 ± 0.0000.056 ± 0.0010.179 ± 0.0020.063 ± 0.003
  • TimeGrad 在大多数数据集上实现了最先进的 CRPSsum,优于经典方法和深度学习基线。
  • 在六个真实世界数据集上,TimeGrad 在表格结果中始终实现低于竞争方法的 CRPSsum。
  • 一种消融研究表明扩散长度 N 可降至约 10 而损失很小,电力数据的最佳约在 N≈100。
  • TimeGrad 能有效建模具有数千维度的高维高度相关时间序列。
  • 该模型的自回归扩散方法通过多条轨迹采样(如 S=100)提供稳健的不确定性量化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。