[论文解读] Multivariate Probabilistic Time Series Forecasting via Conditioned Normalizing Flows
本论文提出一种自回归条件正向流模型(Real NVP/MAF),以 RNN/Transformer 状态为条件,用于对高维多变量时间序列及其不确定性进行预测,在多个数据集上达到最先进的结果。
Time series forecasting is often fundamental to scientific and engineering problems and enables decision making. With ever increasing data set sizes, a trivial solution to scale up predictions is to assume independence between interacting time series. However, modeling statistical dependencies can improve accuracy and enable analysis of interaction effects. Deep learning methods are well suited for this problem, but multivariate models often assume a simple parametric distribution and do not scale to high dimensions. In this work we model the multivariate temporal dynamics of time series via an autoregressive deep learning model, where the data distribution is represented by a conditioned normalizing flow. This combination retains the power of autoregressive models, such as good performance in extrapolation into the future, with the flexibility of flows as a general purpose high-dimensional distribution model, while remaining computationally tractable. We show that it improves over the state-of-the-art for standard metrics on many real-world data sets with several thousand interacting time-series.
研究动机与目标
- 激励在单变量或独立假设之外的概率性、多变量时间序列预测。
- 开发一个端到端可训练的模型,捕捉成千上万相互作用的时间序列之间的依赖性。
- 将自回归动态与通过条件化正则化流实现的灵活密度估计结合起来。
- 在真实世界数据集上展示可扩展性和有竞争力的性能。
- 通过 RNN 和 Transformer 探索条件化机制以捕捉时间结构。
提出的方法
- 使用一个以自回归状态 h_t 为条件的流(Real NVP 或 MAF)对条件联合分布 p(X_t|h_t) 进行建模。
- 使用自回归骨干(RNN 或 Transformer)来为流生成条件输入。
- 通过在时间步和时间序列上最大化条件对数似然,使用 SGD/Adam 进行训练。
- 通过对每个序列进行均值缩放的归一化来稳定训练并提高性能。
- 通过将 h 与流输入拼接或通过偏置项来实现条件化,保持雅可比矩阵性质。
- 通过从学习到的 h_t 条件下的流进行采样来实现推断,从而实现轨迹采样与不确定性量化。
实验结果
研究问题
- RQ1条件化正则化流是否能够高效地模型化高维时间序列的完整联合分布?
- RQ2自回归条件器(RNN 或 Transformer)是否能够实现对数千个相互作用的序列的可扩展、准确的概率预测?
- RQ3条件化如何影响捕捉跨序列相关性和时间动态的能力?
- RQ4在真实世界基准上与最先进方法相比,基于流的多变量预测的经验性性能(CRPS)如何?
主要发现
| 数据集 | Vec-LSTM ind-scaling | Vec-LSTM lowrank-Copula | GP scaling | GP Copula | LSTM Real-NVP | LSTM MAF | Transformer MAF |
|---|---|---|---|---|---|---|---|
| Exchange | 0.008 ± 0.001 | 0.007 ± 0.000 | 0.009 ± 0.000 | 0.007 ± 0.000 | 0.0064 ± 0.003 | 0.005 ± 0.003 | 0.005 ± 0.003 |
| Solar | 0.391 ± 0.017 | 0.319 ± 0.011 | 0.368 ± 0.012 | 0.337 ± 0.024 | 0.331 ± 0.020 | 0.315 ± 0.023 | 0.301 ± 0.014 |
| Electricity | 0.025 ± 0.001 | 0.064 ± 0.008 | 0.022 ± 0.000 | 0.024 ± 0.002 | 0.024 ± 0.001 | 0.0208 ± 0.000 | 0.0207 ± 0.000 |
| Traffic | 0.087 ± 0.041 | 0.103 ± 0.006 | 0.079 ± 0.000 | 0.078 ± 0.002 | 0.078 ± 0.001 | 0.069 ± 0.002 | 0.056 ± 0.001 |
| Taxi | 0.506 ± 0.005 | 0.326 ± 0.007 | 0.183 ± 0.395 | 0.208 ± 0.183 | 0.175 ± 0.001 | 0.161 ± 0.002 | 0.179 ± 0.002 |
| Wikipedia | 0.133 ± 0.002 | 0.241 ± 0.033 | 1.483 ± 1.034 | 0.086 ± 0.004 | 0.078 ± 0.001 | 0.067 ± 0.001 | 0.063 ± 0.003 |
- 提出的 LSTM-Real-NVP、LSTM-MAF 和 Transformer-MAF 在六个真实数据集上实现了最先进的 CRPS_sum。
- Transformer-MAF 与以 RNN 为条件的流在多个度量上超越了包括 Vec-LSTM 和基于 GP 的方法在内的竞争基线。
- 数据中观察到的横截二协方差结构在模型样本中得以较好恢复,表明对依赖关系的学习效果良好。
- 使用带自回归条件化的基于流的发射可扩展到成千上万的相互作用时间序列,并保持计算可行。
- 在评估设置中,MAF 通常比 Real-NVP 提供更好的密度建模。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。