QUICK REVIEW

[論文レビュー] An interpretable LSTM neural network for autoregressive exogenous model

Tian Guo, Tao Lin|arXiv (Cornell University)|Apr 14, 2018

Stock Market Forecasting Methods被引用数 37

ひとこと要約

本稿では、変数固有の表現を符号化するように隠れ状態をテンソルとして構造化することにより、自己回帰的外部変数時系列予測（ARX）において時間的および変数レベルの注目を可能にする多変数LSTM（MV-LSTM）を提案する。モデルは競争力ある予測性能を達成し、注目による学習済み変数重要度と統計的Granger因果関係の間で強い整合性を示しており、実世界のデータセットにおける解釈可能な知識発見を可能にする。

ABSTRACT

In this paper, we propose an interpretable LSTM recurrent neural network, i.e., multi-variable LSTM for time series with exogenous variables. Currently, widely used attention mechanism in recurrent neural networks mostly focuses on the temporal aspect of data and falls short of characterizing variable importance. To this end, our multi-variable LSTM equipped with tensorized hidden states is developed to learn variable specific representations, which give rise to both temporal and variable level attention. Preliminary experiments demonstrate comparable prediction performance of multi-variable LSTM w.r.t. encoder-decoder based baselines. More interestingly, variable importance in real datasets characterized by the variable attention is highly in line with that determined by statistical Granger causality test, which exhibits the prospect of multi-variable LSTM as a simple and uniform end-to-end framework for both forecasting and knowledge discovery.

研究の動機と目的

標準LSTMが入力変数を一様に扱い、個々の寄与を区別しないことによる変数レベルの解釈可能性の欠如に対処すること。
外生変数を伴う多次元時系列において、正確な予測と解釈可能な知識発見の両方をサポートする統一的でエンドツーエンドのフレームワークを開発すること。
隠れ状態をテンソル化された表現として再定義することで、RNNに変数レベルの注目を可能にすること。
MV-LSTMで学習された変数注目が、Granger因果関係などの確立された因果的影響の統計的測定と意味的に相関していることを検証すること。

提案手法

MV-LSTMは、隠れ状態テンソルの各要素が入力変数の1つに厳密に対応するように、テンソル化された隠れ状態を用いる。これにより、変数固有の表現が可能になる。
各変数ごとに別々の重み行列を用いるテンソル化された入力-隠れ状態および隠れ状態-隠れ状態遷移を採用し、変数ごとの情報の分離を保証する。
ゲート（入力、忘却、出力）は、すべての入力変数の共有された統合表現を用いて計算され、時系列間の相関関係が保持される。
変数レベルの注目は、各変数の最終隠れ状態にフィードフォワードネットワークを適用して計算され、アンサンブル予測のための注目重みが得られる。
時間的注目もサポートされるが、本稿では解釈可能性を重視し、変数レベルの注目に焦点を当てる。
最終的な予測は、注目重みをソフトマックスで正規化した各変数固有の予測の重み付き和として得られる。

実験結果

リサーチクエスチョン

RQ1LSTMベースのモデルは、外生変数がターゲット時系列に与える真の影響を反映する解釈可能な変数レベルの注目を学習できるか？
RQ2MV-LSTMの注目による変数重要度は、統計的Granger因果関係によって得られるものと比べてどう異なるか？
RQ3MV-LSTMは、最先端の注目付きRNNおよび従来のアンサンブルモデルと比較して、競争力ある予測性能を達成できるか？
RQ4MV-LSTMは、多次元時系列における正確な予測と因果的知識発見の両方を統合的に実現するエンドツーエンドのフレームワークとして機能できるか？

主な発見

MV-LSTMは最先端の予測性能を達成し、PM2.5データセットではテストRMSEが0.340 ± 0.001を記録し、RF、XGBoost、DUAL、RETAINを上回った。
ENERGYデータセットでは、MV-LSTMのテストRMSEは0.361 ± 0.001であり、XGBoostと同等の性能を示し、DUALおよびRETAINを上回った。
PM2.5データセットにおいてMV-LSTMで平均注目度の上位4つの変数（露点、気圧、気温、風速）は、Granger因果関係によって因果的影響を持つと特定された変数とよく一致した。
MV-LSTMの注目ベースの変数重要度はドメイン知識と整合している：例えば、露点と気圧は偏北風の影響を受けることが知られており、その影響が高めの注目度として反映されている。
一方、DUALモデルは付録に示すように、意味のある変数重要度を生成できず、MV-LSTMの構造化された注目メカニズムの優位性が浮き彫りになった。
結果は、MV-LSTMが多次元時系列における正確な予測と解釈可能な因果分析を同時に可能にするシンプルで統一的なフレームワークを提供することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。