QUICK REVIEW

[논문 리뷰] Exploring Interpretable LSTM Neural Networks over Multi-Variable Data

Tian Guo, Tao Lin|arXiv (Cornell University)|2019. 05. 28.

Stock Market Forecasting Methods참고 문헌 60인용 수 98

한 줄 요약

논문은 변수별 숨겨진 상태를 학습하고 혼합 어텐션을 사용하여 대상 예측과 변수 및 시간 중요도를 함께 정량화하는 해석 가능한 다변수 LSTM IMV-LSTM을 제시한다.

ABSTRACT

For recurrent neural networks trained on time series with target and exogenous variables, in addition to accurate prediction, it is also desired to provide interpretable insights into the data. In this paper, we explore the structure of LSTM recurrent neural networks to learn variable-wise hidden states, with the aim to capture different dynamics in multi-variable time series and distinguish the contribution of variables to the prediction. With these variable-wise hidden states, a mixture attention mechanism is proposed to model the generative process of the target. Then we develop associated training methods to jointly learn network parameters, variable and temporal importance w.r.t the prediction of the target variable. Extensive experiments on real datasets demonstrate enhanced prediction performance by capturing the dynamics of different variables. Meanwhile, we evaluate the interpretation results both qualitatively and quantitatively. It exhibits the prospect as an end-to-end framework for both forecasting and knowledge extraction over multi-variable data.

연구 동기 및 목표

다변수 시계열에서 대상 변수와 외생 변수를 포함한 해석 가능한 예측을 동기화한다.
heterogeneous dynamics를 포착하기 위해 변수별 숨겨진 상태를 학습하는 신경망 아키텍처를 개발한다.
대상을 모델링하기 위해 혼합 어텐션 메커니즘을 도입한다.
네트워크 매개변수, 변수 중요도, 시간 중요도를 함께 학습하는 학습 방법을 제공한다.
실제 데이터셋에서 우수한 예측력과 해석 가능성을 보여준다.

제안 방법

각 행이 변수별 동적 특성을 인코딩하는 은닉 상태 행렬을 갖는 IMV-LSTM을 도입한다.
입력-숨김 및 숨김-숨김 전이를 변수 간 텐서-닷 곱으로 정의하여 변수별 업데이트를 얻는다(IMV-Full 및 IMV-Tensor 변형).
변수별 시간 attentions를 변수 간 어텐션과 결합하여 y_{T+1}를 예측하는 혼합 어텐션 메커니즘을 제안한다.
예측을 주도하는 변수와 연관된 잠재적인 이산 z_{T+1}으로 대상 분포를 모델링하고, 매개변수와 중요도 스코어를 함께 추정하기 위해 EM 기반 학습을 적용한다.
학습된 사후 분포 및 어텐션 값을 바탕으로 변수 중요도 I와 변수별 시간 중요도 T^n를 도출하여 엔드투엔드 해석을 가능하게 한다.
가중 합성으로 예측을 제공한다: hat{y}_{T+1} = sum_n mu_n * Pr(z_{T+1}=n | ...).

실험 결과

연구 질문

RQ1다변수 시계열에서 LSTM의 숨김 상태를 변수별 기여를 반영하도록 어떻게 구성할 수 있는가?
RQ2혼합 어텐션 메커니즘이 대상 예측에 대한 변수별 및 시간적 영향을 모두 포착할 수 있는가?
RQ3모델 매개변수와 해석 가능한 중요도 측정을 엔드투엔드 방식으로 어떻게 함께 학습할 수 있는가?
RQ4변수별 숨김 상태가 표준 다변수 RNN 및 해석 가능한 베이스라인에 비해 예측 정확도를 향상시키는가?
RQ5생성된 변수 및 시간적 중요도 측정값이 의미가 있으며 도메인 지식과 일치하는가?

주요 결과

IMV-LSTM 변형은 PM2.5, PLANT, SML 데이터셋에서 통계, 기계학습 및 심층 baselines 대비 우수한 예측 성능을 보인다.
변수별 구조를 보존하는 IMV-Full 및 IMV-Tensor는 비교적 우수한 성능을 보이며, 독립적인 변수별 업데이트 때문에 IMV-Tensor가 종종 최상의 성능을 보인다.
프레임워크는 도메인 지식과 일치하는 해석 가능한 변수 중요도 랭킹을 생성한다(예: 풍속, 기압, 조도, 습도).
시간 중요도 분석은 변수별 단기 및 장기 효과를 드러내어 예측 시점에서 어떤 변수가 중요한지에 대한 통찰을 제공한다.
EM에 기반한 엔드투엔드 학습 절차는 후속 해석 없이 네트워크 매개변수와 글로벌 중요도 벡터를 학습한다.
이 접근법은 매개변수 수를 줄이고 표준 LSTM에 비해 계산 복잡도를 유사하거나 낮게 유지하며, 특히 변수의 수가 증가할 때 더욱 그렇다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.