Skip to main content
QUICK REVIEW

[論文レビュー] Memory Augmented Neural Networks with Wormhole Connections

Çaǧlar Gülçehre, Sarath Chandar|arXiv (Cornell University)|Jan 30, 2017
Topic Modeling参考文献 8被引用数 44
ひとこと要約

本稿では、外部メモリを通じた離散的ワームホール接続を用いて、長期間のシーケンスにおける消失勾配問題を軽減するメモリ拡張型ニューラルネットワーク、TARDISを提案する。メモリの飽和後に、読み取り/書き込みヘッドを結合することで、過去の隠れ状態を保存・再取得可能にし、効率的な長期依存性学習を実現する。TARDISは、アルゴリズム的タスクで最先端の性能を達成し、SNLI や順序付き MNIST といった実世界の NLP ベンチマークでも競争力のある結果を示した。

ABSTRACT

Recent empirical results on long-term dependency tasks have shown that neural networks augmented with an external memory can learn the long-term dependency tasks more easily and achieve better generalization than vanilla recurrent neural networks (RNN). We suggest that memory augmented neural networks can reduce the effects of vanishing gradients by creating shortcut (or wormhole) connections. Based on this observation, we propose a novel memory augmented neural network model called TARDIS (Temporal Automatic Relation Discovery in Sequences). The controller of TARDIS can store a selective set of embeddings of its own previous hidden states into an external memory and revisit them as and when needed. For TARDIS, memory acts as a storage for wormhole connections to the past to propagate the gradients more effectively and it helps to learn the temporal dependencies. The memory structure of TARDIS has similarities to both Neural Turing Machines (NTM) and Dynamic Neural Turing Machines (D-NTM), but both read and write operations of TARDIS are simpler and more efficient. We use discrete addressing for read/write operations which helps to substantially to reduce the vanishing gradient problem with very long sequences. Read and write operations in TARDIS are tied with a heuristic once the memory becomes full, and this makes the learning problem simpler when compared to NTM or D-NTM type of architectures. We provide a detailed analysis on the gradient propagation in general for MANNs. We evaluate our models on different long-term dependency tasks and report competitive results in all of them.

研究の動機と目的

  • 長期間のシーケンスモデリングにおいて、再帰的ネットワークの消失勾配問題に対処すること。
  • トレーニング中に見過ごした長期間のシーケンスへの一般化を向上させるために、過去の隠れ状態への効率的アクセスを可能にすること。
  • NTM や D-NTM といった既存の MANN よりも単純かつ効率的なメモリ機構を構築することを目的とし、離散的アドレッシングと結合された読み取り/書き込み操作を採用すること。
  • 外部メモリが時間軸を飛び越えた勾配伝播のショートカットを提供する「ワームホール」的接続を形成できることを示すこと。
  • アルゴリズム的タスクと実世界の NLP ベンチマークの両方でモデルを評価し、頑健性と一般化性能を検証すること。

提案手法

  • コントローラーの隠れ状態を格納する外部メモリ行列を備えた、メモリ拡張型RNN、TARDISを提案する。
  • 連続的アテンション機構に起因する勾配拡散を避けるために、読み取り・書き込み操作に離散的アドレッシングを用いる。
  • メモリが満杯になった後は、読み取り・書き込みヘッドを結合し、学習されたルーティングではなくヒューリスティックに基づいた方法で、保存された状態に再アクセス可能にする。
  • メモリのスロットに順番にシーケンシャルな隠れ状態を格納し、満杯に達したら、結合されたヘッドを用いて選択的リトリーブを実行する。
  • 離散的メモリ操作の微分可能訓練のため、Gumbel-Softmax と補助コスト付きの REINFORCE を適用する。
  • メモリアクセスを学習可能なメカニズムとして統合し、コントローラーが時間軸をまたいで過去の表現に動的にアクセスできるようにし、「ワームホール」的接続を形成する。

実験結果

リサーチクエスチョン

  • RQ1MANNにおける外部メモリが、時間軸を飛び越えたショートカット接続を形成することで、消失勾配問題を軽減できるか?
  • RQ2勾配安定性と学習効率の観点から、離散的アドレッシングと連続的アドレッシングの性能はどのように異なるか?
  • RQ3メモリ拡張型RNNにおいて、単純な結合された読み取り/書き込みメカニズムが、NTM や D-NTM といった複雑なアーキテクチャを長期間依存性タスクで上回れるか?
  • RQ4TARDIS は、トレーニング時に見ていたシーケンスよりも長いシーケンスにどの程度一般化できるか?
  • RQ5ワームホール的メモリ接続の使用が、SNLI や順序付き MNIST といった実世界のNLPタスクの性能向上に寄与するか?

主な発見

  • Gumbel-Softmax と補助コスト付きの REINFORCE を用いた場合、TARDIS はコピータスクとアソシエイティブリコールタスクの両方で100%の成功率を達成した。
  • 順序付き MNIST タスクでは、15桁の入力に対してTARDISがほぼ完璧な性能を示し、標準LSTMを上回り、安定した収束を示した。
  • SNLI ベンチマークでは、Gumbel-Softmax を用いたTARDISが84.3%のテスト精度を達成し、ベースラインのLSTMやアテンションベースのモデルを上回った。
  • Gumbel-Softmax を用いたTARDISは、REINFORCEバージョンよりも収束が速く、学習安定性と効率性の向上が示された。
  • 理論的および実験的分析により、メモリからのワームホール接続が、特に長期間のシーケンスにおいて勾配の消失を軽減することが確認された。
  • トレーニング時に見ていたシーケンスよりも長いシーケンスに対しても、TARDISは良好な一般化性能を示し、外挿能力の頑健性を実証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。