[論文レビュー] The unreasonable effectiveness of the forget gate
JANET, a forget-gate-only LSTM variant with chrono initialization, matches or surpasses standard LSTM performance on MNIST, permuted MNIST, and MIT-BIH datasets while offering computational savings.
Given the success of the gated recurrent unit, a natural question is whether all the gates of the long short-term memory (LSTM) network are necessary. Previous research has shown that the forget gate is one of the most important gates in the LSTM. Here we show that a forget-gate-only version of the LSTM with chrono-initialized biases, not only provides computational savings but outperforms the standard LSTM on multiple benchmark datasets and competes with some of the best contemporary models. Our proposed network, the JANET, achieves accuracies of 99% and 92.5% on the MNIST and pMNIST datasets, outperforming the standard LSTM which yields accuracies of 98.5% and 91%.
研究の動機と目的
- すべての LSTM ゲートが必要かどうかを、忘却ゲートのみのアーキテクチャを評価することで調査する。
- 標準 LSTM および他の RNN バリアントと比較して、JANET の性能をベンチマークデータセットで評価する。
- 訓練の安定性と記憶保持における chrono initialization の役割を説明する。
- JANET が LSTM に対して理論的な計算量とメモリ節約を定量化する。
提案手法
- LSTM から入力ゲートと出力ゲートを除去し、入力/忘却のモジュレーションを結合させて (f_t および c_t の更新) JANET を導出する。
- h_t の tanh を除去して勾配の減衰を回避し、情報蓄積を際立たせるためにオプショナルな beta ベースのオフセットを適用する。
- 忘却ゲートと入力ゲートに chrono initialization を適用し、忘却時間定数を T_max に基づいて制御する。
- JANET と LSTM を比較して訓練の容易さと勾配フローを説明する理論的勾配分析を提供する。 0
- LSTM と同等の精度を仮定した場合のパラメータ数、メモリフットプリント、およびフォワードパスの計算量を概算してハードウェア節約を計算する。
実験結果
リサーチクエスチョン
- RQ1忘却ゲートのみのアーキテクチャ (JANET) は、さまざまなタスクで標準の LSTM の性能に匹敵するか、あるいはそれを上回ることができるか?
- RQ2chrono initialization スキームは、JANET/LSTM バリアントの訓練の安定性と記憶保持を改善するか?
- RQ3LSTM を JANET に置き換えた際のフォワードパスにおける実用的な計算量とメモリ節約はどの程度か?
- RQ4標準ベンチマークでの勾配伝播と最適化難易度の比較において、JANET と LSTM はどのように比較されるか?
主な発見
| Model | MNIST | pMNIST | MIT-BIH |
|---|---|---|---|
| JANET | 99.0 ± 0.120 | 92.5 ± 0.767 | 89.4 ± 0.193 |
| LSTM | 98.5 ± 0.183 | 91.0 ± 0.518 | 87.4 ± 0.130 |
| RNN | 10.8 ± 0.689 | 67.8 ± 20.18 | 73.5 ± 4.531 |
| uRNN (Arjovsky et al., 2016) | 95.1 | 91.4 | - |
| iRNN (Le et al., 2015) | 97.0 | 82.0 | - |
| tLSTM a (He et al., 2017) | 99.2 | 94.6 | - |
| stanh RNN b (Zhang et al., 2016) | 98.1 | 94.0 | - |
- JANET は MNIST で 99.0%、pMNIST で 92.5%、MIT-BIH で 89.4% を達成し、標準の LSTM がそれぞれ 98.5%、91.0%、87.4% を達成するのを上回る。
- 入力/出力ゲートを削除し、忘却ゲートの結合と h_t の非線形性を除去することで、データセット全体で競争力のあるまたは優れた精度を得られる。
- JANET アーキテクチャは時間的なスキップ様の接続を実現し、LSTM と比較して訓練を容易かつ高速化に寄与する。
- JANET は LSTM の約半分のパラメータを持ち、フォワードパスの計算は LSTM の約 5/6 と見積もられ、ハードウェアの効率向上を意味する。
- 忘却ゲート(および反対側のゲートバイアス)の chrono initialization は、記憶保持の問題を緩和し、より長い系列(例:MNIST のサブシーケンス)での訓練を支援する。
- より大きなレイヤサイズと chrono initialization の下で、JANET は pMNIST における WaveNet などのトップモデルとの差を縮めるか、同等にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。