[论文解读] Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting
TimeGrad 是一种用于多变量时间序列的自回归扩散概率模型,在每一步对未来分布进行采样,实现在六个真实世界数据集上的最先进的概率预测。
In this work, we propose exttt{TimeGrad}, an autoregressive model for multivariate probabilistic time series forecasting which samples from the data distribution at each time step by estimating its gradient. To this end, we use diffusion probabilistic models, a class of latent variable models closely connected to score matching and energy-based methods. Our model learns gradients by optimizing a variational bound on the data likelihood and at inference time converts white noise into a sample of the distribution of interest through a Markov chain using Langevin sampling. We demonstrate experimentally that the proposed autoregressive denoising diffusion model is the new state-of-the-art multivariate probabilistic forecasting method on real-world data sets with thousands of correlated dimensions. We hope that this method is a useful tool for practitioners and lays the foundation for future research in this area.
研究动机与目标
- 为相关的时间序列提供多变量概率预测的动机,并解决高维下可处理似然性的局限性。
- 提出 TimeGrad,一种自回归的能量基模型,使用扩散过程来建模逐步分布,条件于过去数据和协变量。
- 利用 RNN(LSTM/GRU)对历史进行编码,并对基于扩散的发射模型进行条件化。
- 使用数据似然的变分界来训练,并使用 Langevin 动力学进行未来轨迹的采样。
- 在六个具有数千维度的真实世界数据集上,与多种基线方法比较评估 TimeGrad。
提出的方法
- 采用扩散概率建模来学习下一时间步分布的对数密度梯度。
- 使用自回归 RNN 条件的扩散模型,将多变量条件分布按时间分解。
- 通过一个变分界来训练,化简为真噪声与预测噪声之间的加权平方误差,条件于 RNN 隐状态。
- 使用类似 Langevin 的退火采样从白噪声生成未来时间步。
- 通过上下文窗口均值对时间序列进行归一化以稳定训练,并对时间相关和非时间相关特征应用协变量嵌入。
- 利用残差膨胀卷积网络在扩散步骤下参数化噪声预测器 εθ。
实验结果
研究问题
- RQ1TimeGrad 是否能够在给定过去和协变量的情况下,准确建模并从未来多变量时间步的完整条件分布中进行采样?
- RQ2在多样的真实世界数据集上,与最先进多变量概率预测方法相比,TimeGrad 的表现如何?
- RQ3扩散长度 N 对预测准确性和采样效率的影响是什么?
- RQ4通过上下文窗口均值进行归一化是否能提升预测性能和稳定性?
- RQ5TimeGrad 能否处理具有数千维相关性的高维时间序列?
主要发现
| 方法 | 交易所 | 太阳能 | 电力 | 交通 | 出租车 | 维基百科 |
|---|---|---|---|---|---|---|
| TimeGrad | 0.006 ± 0.001 | 0.287 ± 0.020 | 0.0206 ± 0.001 | 0.044 ± 0.006 | 0.114 ± 0.020 | 0.0485 ± 0.002 |
| VAR | 0.005 ± 0.000 | 0.83 ± 0.006 | 0.039 ± 0.0005 | 0.29 ± 0.005 | - | - |
| GP Copula | 0.007 ± 0.000 | 0.337 ± 0.024 | 0.0245 ± 0.002 | 0.078 ± 0.002 | 0.208 ± 0.183 | 0.086 ± 0.004 |
| Transformer MAF | 0.005 ± 0.003 | 0.301 ± 0.014 | 0.0207 ± 0.000 | 0.056 ± 0.001 | 0.179 ± 0.002 | 0.063 ± 0.003 |
- TimeGrad 在大多数数据集上实现了最先进的 CRPSsum,优于经典方法和深度学习基线。
- 在六个真实世界数据集上,TimeGrad 在表格结果中始终实现低于竞争方法的 CRPSsum。
- 一种消融研究表明扩散长度 N 可降至约 10 而损失很小,电力数据的最佳约在 N≈100。
- TimeGrad 能有效建模具有数千维度的高维高度相关时间序列。
- 该模型的自回归扩散方法通过多条轨迹采样(如 S=100)提供稳健的不确定性量化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。