QUICK REVIEW

[論文レビュー] Using Fast Weights to Attend to the Recent Past

Jimmy Ba, Geoffrey E. Hinton|arXiv (Cornell University)|Oct 20, 2016

Neural Networks and Applications被引用数 153

ひとこと要約

tldr: 本論文は fast weights を最近の隠れ状態に対して注意を払う高速な連想メモリとして導入し、RNNにおけるメモリと注意を改善できることを示す。層正規化はタスク全体で安定性と性能を向上させる。

ABSTRACT

Until recently, research on artificial neural networks was largely restricted to systems with only two types of variable: Neural activities that represent the current or recent input and weights that learn to capture regularities among inputs, outputs and payoffs. There is no good reason for this restriction. Synapses have dynamics at many different time-scales and this suggests that artificial neural networks might benefit from variables that change slower than activities but much faster than the standard weights. These "fast weights" can be used to store temporary memories of the recent past and they provide a neurally plausible way of implementing the type of attention to the past that has recently proved very helpful in sequence-to-sequence models. By using fast weights we can avoid the need to store copies of neural activity patterns.

研究の動機と目的

最近の履歴を全ての活性化パターンを保存することなく保存するため、遅いシナプスウェイトよりも高速な記憶メカニズムの必要性を動機づける。
最近の隠れ状態を保存するため、時間とともに減衰する外積更新を用いた fast associative memory を提案する。
fast weights が連想検索、MNIST の視覚注意、表情認識、記憶を用いた強化学習の性能向上を可能にすることを示す。
層正規化が fast weight のダイナミクスを安定化させ、学習を改善する方法を示す。
複数のタスクにわたり fast weights を標準的な RNN や LSTM と比較し、利点と限界を明らかにする。

提案手法

現在の隠れ状態 h(t) の外積によって更新され、減衰率 λ をもつ fast weight 行列 A(t) を定義する: A(t) = λ A(t-1) + η h(t) h(t)^T.
次の隠れ状態 h(t+1) を二段階プロセスで計算する: まず予備的な h0(t+1) = f(W h(t) + C x(t))、その後 S 回の反復で A(t) h_s(t+1) を取り入れて h を洗練させる内部ループ。
内部ループに層正規化を組み込んでダイナミクスを安定化させる: h_{s+1}(t+1) = f(LN[ W h(t) + C x(t) + A(t) h_s(t+1) ]).
SGD で学習された遅いウェイト W と C を用い、A には η と減衰 λ を用いた高速学習規則を適用; Adam を用いたミニバッチで訓練。
fast weights を IRNN、標準的な LSTM、連想 LSTM と比較し、連想検索、 glimpses を用いた MNIST、表情認識、記憶を用いた強化学習などのタスクで評価。

実験結果

リサーチクエスチョン

RQ1迅速なシナプス様のメモリは、従来の隠れ状態メモリよりも最近の過去情報をより効率的に保存できるのか？
RQ2層正規化は再帰ネットワークにおける fast weight メモリの安定性と性能を向上させるか？
RQ3fast weights は、連想検索、Glimpses を使った視覚注意、表情認識、記憶に基づく強化学習において、標準の RNN や LSTM と比べて実質的な精度向上や学習速度の利得を提供するか？

主な発見

Fast weights は再帰層のサイズが小さい場合に連想検索を著しく改善し、LSTM の派生よりも優れた性能を示し、収束を早める。
多段階の視覚注意設定を用いた MNIST では、fast weights は IRNN、LSTM、ConvNet ベースラインと比較して、特に隠れ単位が制限されている場合、競争力のあるまたは優れた精度を達成する。
表情認識では、fast weights モデルはしばしば IRNN および LSTM のベースラインを上回る一方で、ConvNet がいくつかの設定で多段階注意モデルよりも高い性能を示すことがある。
記憶を用いた強化学習（Catch タスク）では、fast weights を用いるエージェントが ReLU RNN や LSTM を用いるものより学習が速く、より多くの記憶を要求するバリアントでより大きな向上を示す。
層正規化は fast weight のダイナミクスの頑健性を高め、学習率と減衰パラメータのより広い範囲で安定した訓練を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。