QUICK REVIEW

[論文レビュー] Revisiting NARX Recurrent Neural Networks for Long-Term Dependencies.

Robert DiPietro, Nassir Navab|arXiv (Cornell University)|Feb 24, 2017

Machine Learning in Healthcare被引用数 6

ひとこと要約

本稿では、MIST RNNsと呼ばれる、現在の隠れ状態に遠い過去の状態を直接接続する新しいNARX再帰的アーキテクチャを提案する。これにより、優れた勾配の流れと効率性が実現される。長期間の依存関係を扱うタスクにおいて、LSTM や Clockwork RNN よりも少ないパラメータ数と計算量で優れた性能を発揮する。

ABSTRACT

Recurrent neural networks (RNNs) have achieved state-of-the-art performance on many diverse tasks, from machine translation to surgical activity recognition, yet training RNNs to capture long-term dependencies remains difficult. To date, the vast majority of successful RNN architectures alleviate this problem using nearly-additive connections between states, as introduced by long short-term memory (LSTM). We take an orthogonal approach and introduce MIST RNNs, a NARX RNN architecture that allows direct connections from the very distant past. We show that MIST RNNs 1) exhibit superior vanishing-gradient properties in comparison to LSTM and previously-proposed NARX RNNs; 2) are far more efficient than previously-proposed NARX RNN architectures, requiring even fewer computations than LSTM; and 3) improve performance substantially over LSTM and Clockwork RNNs on tasks requiring very long-term dependencies.

研究の動機と目的

再帰的ニューラルネットワーク（RNN）が長期依存関係を学習するのを困難にする、長年の課題に取り組むこと。これは系列モデルにおける主要なボトル neck である。
標準的なRNNやLSTMが非常に長い時間的依存関係を捉えることの制限を克服すること。
ゲーティング機構に依存せずに、消失勾配を回避できるより効率的で安定したRNNアーキテクチャを設計すること。
NARX RNNsにおける直接的な長距離接続の可能性を調査し、長期間のタスクにおける性能向上を図ること。

提案手法

現在の隠れ状態に、過去の隠れ状態（非常に遠いものも含む）を直接接続できるNARX RNNアーキテクチャとしてMIST RNNsを提案する。
現在の入力と、選択された過去の隠れ状態の重み付き和を組み合わせる、修正された状態遷移関数を導入することで、長距離の情報伝達を可能にする。
標準的なRNN や一部の先行NARXバージョンとは異なり、消失ダイナミクスを避けることで、勾配の安定性を維持するアーキテクチャを設計する。
過去の状態の数を制限することで、計算効率を最適化し、推論コストを低く保つ。
遠い過去の状態の影響を制御する学習可能なゲーティング機構を導入し、安定性と表現力のバランスを取る。
標準的なバックプロパゲーションを用いてエンドツーエンドでモデルを学習し、勾配の流れを分析することで、消失勾配の改善が図られていることを示す。

実験結果

リサーチクエスチョン

RQ1NARX RNNsにおける直接的な長距離接続は、標準的なRNN やLSTMと比較して、勾配の流れを著しく改善し、消失勾配を軽減できるか？
RQ2特に長系列のモデリングにおいて、MIST RNNsの計算効率はLSTM や他のNARX RNNsと比較してどの程度か？
RQ3MIST RNNsは、非常に長い期間の依存関係を必要とするタスクにおいて、LSTM や Clockwork RNNsと比較してどの程度性能が向上するか？
RQ4LSTM のようなゲーティング機構を欠いたMIST RNNsでは、学習の安定性や性能が損なわれるか？
RQ5MIST RNNsは、競合アーキテクチャと比較して、少ないパラメータ数と低いFLOPsで強力な性能を維持できるか？

主な発見

MIST RNNsは、LSTM や以前に提案されたNARX RNNsと比較して、より優れた消失勾配特性を示し、長期間のシーケンスにおけるより安定した学習を可能にする。
長距離接続を組み込んでも、LSTM よりも少ない計算量で済むため、より効率的である。
非常に長い期間の依存関係を必要とするタスクにおいて、MIST RNNsはLSTM や Clockwork RNNsを顕著に上回り、精度と一般化性能に優れる。
パラメータ数を減らし、FLOPsの要件を低くすることで、高い効率性を示す。
直接接続機構により、シーケンス長が1000ステップを超えるような長期間にわたり、安定した勾配の流れを実現できる。
実験的結果から、MIST RNNsが長期間の系列モデリングベンチマークで最先端の性能を達成していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。