Skip to main content
QUICK REVIEW

[論文レビュー] A Dual-Stage Attention-Based Recurrent Neural Network for Time Series Prediction

Yao Qin, Dongjin Song|arXiv (Cornell University)|Apr 7, 2017
Stock Market Forecasting Methods参考文献 26被引用数 376
ひとこと要約

DA-RNNを導入し、入力アテンションエンコーダと時間的アテンションデコーダで、関連する駆動系列と長期的な時間依存性を選択して時系列予測を改善する。SML 2010およびNASDAQ 100データセットで最先端の結果を達成。

ABSTRACT

The Nonlinear autoregressive exogenous (NARX) model, which predicts the current value of a time series based upon its previous values as well as the current and past values of multiple driving (exogenous) series, has been studied for decades. Despite the fact that various NARX models have been developed, few of them can capture the long-term temporal dependencies appropriately and select the relevant driving series to make predictions. In this paper, we propose a dual-stage attention-based recurrent neural network (DA-RNN) to address these two issues. In the first stage, we introduce an input attention mechanism to adaptively extract relevant driving series (a.k.a., input features) at each time step by referring to the previous encoder hidden state. In the second stage, we use a temporal attention mechanism to select relevant encoder hidden states across all time steps. With this dual-stage attention scheme, our model can not only make predictions effectively, but can also be easily interpreted. Thorough empirical studies based upon the SML 2010 dataset and the NASDAQ 100 Stock dataset demonstrate that the DA-RNN can outperform state-of-the-art methods for time series prediction.

研究の動機と目的

  • 多くの駆動(外生)系列(NARX設定)を用いた時系列予測を動機付ける。
  • 各時刻で関連入力特徴(駆動系列)を自動的に選択できるモデルを開発する。
  • encoderの隠れ状態を時系列にわたって選択することにより長期的な時間依存性を捉える。
  • 予測に影響を与える入力と時刻を理解できる解釈可能な機構を提供する。
  • ノイズのある入力に対するロバスト性を示し、最先端のベースラインと比較する。

提案手法

  • デュアルステージアテンションベースのRNN(DA-RNN)をLSTMユニットと統合して提案。
  • Encoderは入力アテンション機構を用いて各時刻の駆動系列を重み付けし、encoder用の \\tilde{x}_t を生成。
  • Decoderは時間的アテンション機構を用いて、エンコーダ隠れ状態 h_i を跨ぐ重み付き和としてコンテキストベクトル c_t を計算。
  • 予測はデコーダ状態 d_T とコンテキスト c_T を線形マッピングを介して \\hat{y}_T を生成。
  • 学習は TensorFlow で Adam 最適化を用いた平均二乗誤差。
  • 主要な式には入力アテンション: e_t^k = v_e^T tanh(W_e [h_{t-1}; s_{t-1}] + U_e x^k) と \\alpha_t^k = softmax(e_t^k); \\tilde{x}_t = (\\alpha_t^1 x_t^1, ..., \\alpha_t^n x_t^n)^T; encoder update via LSTM; 時間的アテンション: l_t^i = v_d^T tanh(W_d [d_{t-1}; s'_{t-1}] + U_d h_i) と \\beta_t^i = softmax(l_t^i); c_t = sum_i \\beta_t^i h_i; 最終出力は y_tilde と d_t を用いて \\hat{y}_T を生成。

実験結果

リサーチクエスチョン

  • RQ1デュアルステージのアテンションは、多数の外生入力を持つ NARX型時系列の予測精度を向上させるか?
  • RQ2各時刻の入力特徴選択は、ノイズの多い駆動系列に対するロバスト性を向上させるか?
  • RQ3 encoder 状態上の時間的アテンションは、長期的な依存性を時系列予測に効果的に活用できるか?
  • RQ4DA-RNNは標準的な時系列ベンチマークでエンコーダ-デコーダおよびアテンション付きRNNと比較してどうか?

主な発見

モデルSML MAESML MAPESML RMSENASDAQ MAENASDAQ MAPENASDAQ RMSE
ARIMA1.959.292.650.911.841.45
NARX RNN1.798.642.340.751.510.98
Encoder-Decoder (64)2.5912.13.370.971.961.27
Encoder-Decoder (128)1.919.002.520.721.461.00
Attention RNN (64)1.788.462.320.761.541.00
Attention RNN (128)1.778.452.330.711.430.96
Input-Attn-RNN (64)1.888.892.500.280.570.41
Input-Attn-RNN (128)1.708.092.240.260.530.39
DA-RNN (64)1.537.312.020.210.430.31
DA-RNN (128)1.507.141.970.220.450.33
  • DA-RNNは、MAE、MAPE、RMSEの各指標でベースラインと比較してデータセット全体で最良の性能を達成。
  • 入力アテンションは関連する駆動系列を選択的に強調するのに役立ち、ノイズの多い入力に対するロバスト性を改善。
  • 時間的アテンションは、時刻を跨る顕著なエンコーダ状態に焦点を当てることで長期的な依存性を活用可能にする。
  • DA-RNNはEncoder-DecoderおよびAttention RNNを上回り、入力アテンションと時間的アテンションの組み合わせが最も強い結果を生む。
  • NASDAQ 100では DA-RNN (128) が MAE 0.22、MAPE 0.45%、RMSE 0.33、SML 2010では DA-RNN (128) が MAE 1.50、MAPE 7.14%、RMSE 1.97 を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。