QUICK REVIEW

[論文レビュー] Reversible Recurrent Neural Networks

Matthew Mackay, Paul Vicol|arXiv (Cornell University)|Oct 25, 2018

Neural Networks and Applications被引用数 21

ひとこと要約

この論文は、バックプロパゲーション中に隠れ状態を保存するのではなく再構成することで、トレーニング中のメモリ使用量を削減する可逆的再帰ニューラルネットワーク（RNN）を提案する。再構成に少量のビット（1–5ビット/ユニット）を用いることで、完全な逆転が可能になり、情報の損失なしにメモリを削減する。この手法により、RNNでは10–15倍、アテンションベースのシーケンス・トゥ・シーケンス・モデルでは5–15倍のメモリ削減が達成され、言語モデリングおよび機械翻訳タスクにおいて標準モデルと同等の性能を発揮する。

ABSTRACT

Recurrent neural networks (RNNs) provide state-of-the-art performance in processing sequential data but are memory intensive to train, limiting the flexibility of RNN models which can be trained. Reversible RNNs---RNNs for which the hidden-to-hidden transition can be reversed---offer a path to reduce the memory requirements of training, as hidden states need not be stored and instead can be recomputed during backpropagation. We first show that perfectly reversible RNNs, which require no storage of the hidden activations, are fundamentally limited because they cannot forget information from their hidden state. We then provide a scheme for storing a small number of bits in order to allow perfect reversal with forgetting. Our method achieves comparable performance to traditional models while reducing the activation memory cost by a factor of 10--15. We extend our technique to attention-based sequence-to-sequence models, where it maintains performance while reducing activation memory cost by a factor of 5--10 in the encoder, and a factor of 10--15 in the decoder.

研究の動機と目的

再帰ニューラルネットワーク（RNN）のトレーニングにおける高いメモリコスト、特にバックプロパゲーション中に隠れ活性化状態を保存する点を解決すること。
完全に可逆的なRNNの根本的制限、すなわち情報の忘れができないため、基本的なシーケンスタスクに失敗することを克服すること。
完全な逆転を可能にしつつ、最小限のビットストレージにより情報の忘れをサポートする、メモリ効率の良いRNNアーキテクチャを開発すること。
可逆的RNNフレームワークをアテンションベースのシーケンス・トゥ・シーケンス・モデルに拡張し、活性化状態のメモリを削減しながらも性能を維持すること。
言語モデリングおよびニューラル機械翻訳ベンチマークで、顕著なメモリ削減を伴いながらも競争力のある性能を示すことを実証すること。

提案手法

結合機構を用いて隠れ状態間の遷移を可逆的にするようにGRUおよびLSTMの可逆的バージョンを設計する。
情報の忘れを可能にするために、少量のストレージビット（ユニットあたり1–5ビット）を導入する。
RevNetにインspiredされた可逆ブロック構造を用い、バックプロパゲーション時に残差関数を用いて隠れ状態を再構成する。
語彙埋め込みと連結された、固定サイズの隠れ状態の一部（例：20–60次元）に対してアテンションを適用することで、アテンション機構のメモリを削減する。
前方変換の逆関数を用いてバックプロパゲーション中に隠れ状態を再構成し、中間活性化状態の保存を回避する。
再構成に伴う演算コストの増加（約33％増加）を受容することで、メモリ削減と計算コストのバランスを取る。

実験結果

リサーチクエスチョン

RQ1隠れ状態の活性化を一切保存しない完全な可逆的RNNは、過去の入力の記憶を必要とする基本的なシーケンス予測タスクを解けるか？
RQ2情報の忘れを可能にするために少量のビットを導入する場合、メモリ効率とモデル表現力のトレードオフはどのようになるか？
RQ3可逆的RNNは、言語モデリングおよびニューラル機械翻訳タスクにおいて、標準RNNと同等の性能を達成できるか？
RQ4可逆的RNNフレームワークは、アテンション効果を損なわずに、アテンションベースのシーケンス・トゥ・シーケンス・モデルに拡張可能か？
RQ5可逆アーキテクチャを用いることで、シーケンス・トゥ・シーケンス・モデルのエンコーダおよびデコーダ部でどの程度のメモリ削減が達成できるか？

主な発見

完全に可逆的なRNNは、情報の忘れができないため、1ステップ予測タスクに失敗し、根本的な制限を示している。
ユニットあたり1–5ビットをストレージに保持することで、本手法は完全な逆転を可能にしつつ、情報の忘れをサポートし、過去の入力の記憶を必要とするタスクを解けるようにする。
Penn TreeBankデータセットでは、可逆的GRUおよびLSTMモデルが標準モデルと比較して2–5ポイントの perplexity の差異を示し、10–15倍のメモリ削減を達成した。
WikiText-2では、可逆モデルは標準モデルより2–5ポイントの perplexity で劣るが、依然として10–15倍のメモリ削減を達成した。
シーケンス・トゥ・シーケンス・モデルでは、エンコーダで5–10倍、デコーダで10–15倍の活性化メモリ削減が達成され、Multi30KおよびIWSLT 2016ベンチマークで競争力のある性能を示した。
語彙埋め込みと連結された固定サイズの隠れ状態の一部（例：20–60次元）に対してアテンションを計算することで、性能を維持しつつメモリ効率を向上させることができた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。