QUICK REVIEW

[论文解读] Long-term Forecasting using Higher Order Tensor RNNs

Rose Yu, Stephan Zheng|arXiv (Cornell University)|Oct 31, 2017

Tensor decomposition and applications参考文献 36被引用 74

一句话总结

HOT-RNN 引入了一种具有张量分解的高阶循环神经网络，用于建模非马尔可夫的非线性动力学以进行长期预测，在合成数据和真实数据上相比标准 RNNs/LSTMs 实现了 5-12% 的改进。

ABSTRACT

We present Higher-Order Tensor RNN (HOT-RNN), a novel family of neural sequence architectures for multivariate forecasting in environments with nonlinear dynamics. Long-term forecasting in such systems is highly challenging, since there exist long-term temporal dependencies, higher-order correlations and sensitivity to error propagation. Our proposed recurrent architecture addresses these issues by learning the nonlinear dynamics directly using higher-order moments and higher-order state transition functions. Furthermore, we decompose the higher-order structure using the tensor-train decomposition to reduce the number of parameters while preserving the model performance. We theoretically establish the approximation guarantees and the variance bound for HOT-RNN for general sequence inputs. We also demonstrate 5% ~ 12% improvements for long-term prediction over general RNN and LSTM architectures on a range of simulated environments with nonlinear dynamics, as well on real-world time series data.

研究动机与目标

在具有非线性动力学和强时间相关性的系统中，推动长期预测的研究目标。
开发一种高阶 RNN 架构，以在更长的历史中捕捉状态的高阶交互。
通过 tensor-train decomposition 降低模型复杂度，同时不牺牲性能。
为 HOT-RNN 的表达能力和估计方差提供理论保证。
在合成和真实世界时间序列上展示相对于基线的经验改进。

提出的方法

通过在增广状态 s_t 中保留 L 个历时隐藏状态来引入高阶记忆。
通过一个 P 阶转移张量 W 对隐藏状态的多项式交互进行建模，从而捕捉非线性动力学。
对 W 应用 tensor-train decomposition，将参数从 O((HL+1)^P) 降至 O(HLR^2P)。
将 HOT-RNN 纳入 seq2seq 框架（HOT-LSTM）以实现编码器-解码器的长期预测。
给出理论结果：一个近似保证（Theorem 1）和一个估计方差界（Theorem 2）。
在实验中使用带有 seq2seq 架构和 HOT-RNN 内的 LSTM 单元的训练设置。

实验结果

研究问题

RQ1HOT-RNN 能否在具有长时间记忆的情况下近似非线性高阶动力学？
RQ2相比标准 RNN 和 LSTM，高阶交互与 tensor-train 压缩是否提升长期预测能力？
RQ3HOT-RNN 如何在表达能力与参数效率之间权衡，以及有哪些理论保证支持其使用？
RQ4在合成的 Genz 动力学以及真实世界的交通与气候数据上观察到的改进在不同预测时域上是否具有统计显著性？

主要发现

HOT-RNN 在长期预测方面相较通用 RNN 和 LSTM，在合成非线性动力学和真实世界时间序列上实现了 5-12% 的改进。
对于满足正则性条件的函数，在具有高阶多项式和 tensor-train 表示的情况下，该模型对标准 RNN 的表达能力呈指数级提升。
Tensor-train 分解在保持相关结构的同时，将参数从 O((HL+1)^P) 大幅降至 O(HLR^2P)。
HOT-LSTM 在长期精度方面优于基线，且误差随时间的传播更稳定。
在 Genz 动力学、交通和气候数据集上的实验表明在长期预测方面具有鲁棒改进，且参数数量与基线相当。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。