QUICK REVIEW

[論文レビュー] Exploring Interpretable LSTM Neural Networks over Multi-Variable Data

Tian Guo, Tao Lin|arXiv (Cornell University)|May 28, 2019

Stock Market Forecasting Methods参考文献 60被引用数 98

ひとこと要約

この論文は、変数ごとの隠れ状態を学習し、混合アテンションを用いてターゲットを同時に予測し、変数と時間の重要性を定量化する解釈可能なマルチ変数LSTM、IMV-LSTMを提案します。

ABSTRACT

For recurrent neural networks trained on time series with target and exogenous variables, in addition to accurate prediction, it is also desired to provide interpretable insights into the data. In this paper, we explore the structure of LSTM recurrent neural networks to learn variable-wise hidden states, with the aim to capture different dynamics in multi-variable time series and distinguish the contribution of variables to the prediction. With these variable-wise hidden states, a mixture attention mechanism is proposed to model the generative process of the target. Then we develop associated training methods to jointly learn network parameters, variable and temporal importance w.r.t the prediction of the target variable. Extensive experiments on real datasets demonstrate enhanced prediction performance by capturing the dynamics of different variables. Meanwhile, we evaluate the interpretation results both qualitatively and quantitatively. It exhibits the prospect as an end-to-end framework for both forecasting and knowledge extraction over multi-variable data.

研究の動機と目的

ターゲットと外生変数を持つマルチ変数時系列の解釈可能な予測を動機づける。
変数ごとの隠れ状態を学習し、異種のダイナミクスを捉えるニューラルアーキテクチャを開発する。
ターゲットの生成過程をモデル化する混合アテンション機構を導入する。
ネットワークパラメータ、変数重要度、時系列の時間的重要度を同時に学習する訓練方法を提供する。
実世界データセットで優れた予測性能と解釈性を示す。

提案手法

各行が変数ごとに変数特有のダイナミクスを符号化する隠れ状態マトリクスを備えたIMV-LSTMを導入。
入力から隠れ層への遷移と隠れ層から隠れ層への遷移を、変数間のテンソルドット演算として定義し、変数ごとの更新を得る（IMV-Full および IMV-Tensor 変種）。
変数ごとの時間注意と変数間の変数レベルの注意を組み合わせて y_{T+1} を予測する混合アテンション機構を提案。
離散潜在変数 z_{T+1} によってターゲット分布をモデル化し、EMベースの学習でパラメータと重要度スコアを同時に推定する。
学習後の事後分布と注意値から変数重要度 I と変数別時間重要度 T^n を導出し、エンドツーエンドの解釈を可能にする。
予測は重み付き混合で提供: hat{y}_{T+1} = sum_n mu_n * Pr(z_{T+1}=n | ...)。

実験結果

リサーチクエスチョン

RQ1LSTM の隠れ状態をどのように構造化して、マルチ変数時系列における変数ごとの寄与を反映させられるか？
RQ2混合アテンション機構はターゲット予測における変数ごとおよび時間的影響の両方を捉えられるか？
RQ3エンドツーエンドでモデルパラメータと解釈可能な重要度指標を学習するには？
RQ4変数ごと隠れ状態は、標準のマルチ変数RNNおよび解釈可能なベースラインと比較して予測精度を向上させるか？
RQ5得られた変数と時間の重要度指標は意味があり、ドメイン知識と一致しているか？

主な発見

IMV-LSTM 変種はPM2.5、PLANT、SML のデータセットに対して、統計、機械学習、および深層ベースラインよりも優れた予測性能を達成する。
変数ごとの構造を保持する IMV-Full および IMV-Tensor は同等か最高の結果を示し、IMV-Tensor は独立した変数ごとの更新によりよく機能することが多い。
このフレームワークは、風速、気圧、日射量、湿度などのドメイン知識と一致する解釈可能な変数重要度ランキングを生み出す。
時間的重要性分析は、変数固有の短期および長期の影響を明らかにし、予測において異なる変数がいつ重要になるかの洞察を提供する。
EM に基づくエンドツーエンド訓練手順は、後処理の解釈なしにネットワークパラメータと全球的重要度ベクトルを学習する。
このアプローチはパラメータ数を削減し、特に変数数が増えると標準のLSTMに比べて計算量が同等以下になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。