QUICK REVIEW

[論文レビュー] Sparse Attentive Backtracking: Temporal CreditAssignment Through Reminding

Nan Rosemary Ke, Anirudh Goyal|arXiv (Cornell University)|Sep 11, 2018

Multimodal Machine Learning Applications参考文献 28被引用数 34

ひとこと要約

この論文は、すべての時刻ステップを経由して勾配を逆伝播するのではなく、注目メカニズムを用いてスパースで顕著な過去の状態にのみ勾配を逆伝播する、再帰的ニューラルネットワークのための新しい信用配分メカニズムであるSparse Attentive Backtracking (SAB)を提案する。SABは、長期間の依存関係を学習するタスクにおいて、完全なBPTT（Backpropagation Through Time）と同等の性能を達成しながら、完全なアンロールの計算的負担を回避し、切り捨てられたBPTTやLSTMを上回る。

ABSTRACT

Learning long-term dependencies in extended temporal sequences requires credit assignment to events far back in the past. The most common method for training recurrent neural networks, back-propagation through time (BPTT), requires credit information to be propagated backwards through every single step of the forward computation, potentially over thousands or millions of time steps. This becomes computationally expensive or even infeasible when used with long sequences. Importantly, biological brains are unlikely to perform such detailed reverse replay over very long sequences of internal states (consider days, months, or years.) However, humans are often reminded of past memories or mental states which are associated with the current mental state. We consider the hypothesis that such memory associations between past and present could be used for credit assignment through arbitrarily long sequences, propagating the credit assigned to the current state to the associated past state. Based on this principle, we study a novel algorithm which only back-propagates through a few of these temporal skip connections, realized by a learned attention mechanism that associates current states with relevant past states. We demonstrate in experiments that our method matches or outperforms regular BPTT and truncated BPTT in tasks involving particularly long-term dependencies, but without requiring the biologically implausible backward replay through the whole history of states. Additionally, we demonstrate that the proposed method transfers to longer sequences significantly better than LSTMs trained with BPTT and LSTMs trained with full self-attention.

研究の動機と目的

長期間のシーケンスにおいて、バックプロパゲーションスルータイム（BPTT）の計算的に非現実的な問題に対処すること。特に、何百万もの時刻ステップにわたるアンロールが行われる場合に有効である。
現在の状態が関連する過去の状態を想起することで、信用配分をモデル化するという生物学的に現実的なBPTTの代替手法を検討すること。
すべての中間状態を完全に後退再実行する必要がない、長期的依存関係の有効な学習を可能にする手法を開発すること。
標準的なRNNや自己注意モデルと比較して、長期間のシーケンスにおける一般化性能と転移学習性能を向上させること。

提案手法

現在の隠れ状態と関連する過去の状態を関連付けるスパースで注目ベースのメカニズムを導入し、時系列のスキップ接続を形成する。
勾配は、全シーケンスを経由してではなく、学習された注目パスを通じてのみ逆伝播されるため、計算コストが削減される。
現在の状態と過去の隠れ状態の間の関連度スコアを微分可能注目メカニズムで計算し、上位k個の状態を選択して逆伝播に使用する。
ハイブリッドトレーニング戦略を採用：短期的依存関係には標準的なBPTT、長期的信用配分には選択的バックトラッキングによるSABを適用する。
RNNおよびTransformerにこの手法を適用し、シーケンスモデリング、記憶タスク、画像分類の評価を実施する。
温度制御されたソフト注目メカニズムを用いて、過去の状態の選択に勾配の流れを可能にする。

実験結果

リサーチクエスチョン

RQ1生物学的にインspiredされた想起メカニズムは、長期的信用配分において完全なBPTTに効果的に代わることができるか？
RQ2スパースで注目ベースのバックトラッキングは、計算コストを削減しつつ、完全なBPTTと同等の性能を達成できるか？
RQ3SABは、切り捨てられたBPTTやLSTMと比較して、延長されたシーケンスにおける長期的依存関係の学習でどのように性能を発揮するか？
RQ4SABは、標準的なRNNや自己注意モデルと比較して、より長いシーケンスに一般化しやすいか？
RQ5注目メカニズムは、現在の意思決定と因果的に関連する顕著で遠く離れた過去の状態を適切に特定できるか？

主な発見

SABは $k_{\textrm{trunc}}=20$ および $k_{\textrm{top}}=10$ の設定で、pMNISTタスクで90.9％のテスト精度を達成し、完全なBPTTで学習したLSTM（90.3％）を上回り、CIFAR10では完全なBPTTの性能に匹敵した。
200ステップのコピータスクでは、SABは95％の精度を達成し、BPTTで学習したLSTM（52％）および自己注意を用いたLSTM（34％）を大きく上回った。
Text8言語モデリングデータセットでは、SABは $k_{\textrm{trunc}}=10$ および $k_{\textrm{top}}=5$ の設定で、完全なBPTTで学習したLSTMを上回った。
SABは強力な転移学習性能を示した：5000ステップのコピータスクでは41％の精度を達成したが、BPTTで学習したLSTMは12％、自己注意を用いたLSTMはメモリオーバーフロー（OOM）となった。
200ステップのコピータスクにおいて、SABの注目メカニズムは、初期の10個の入力記号に素早く注目を向けるよう学習した。これは、長期記憶の効果的な検索が可能であることを示している。
CIFAR10では、SABはTransformerモデル（64.5％ vs. 62.2％）を上回った。これは、特定のシーケンスタスクにおいて、インダクティブバイアスに優位性がある可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。