QUICK REVIEW

[論文レビュー] Learning Long Term Dependencies via Fourier Recurrent Units

Jiong Zhang, Yibo Lin|arXiv (Cornell University)|Mar 17, 2018

Neural Networks and Applications参考文献 7被引用数 27

ひとこと要約

本稿では、時間的な隠れ状態を要約するためにフーリエ基底関数を用いる、新しいRNNアーキテクチャ「フォーリエ再帰ユニット（FRU）」を提案する。このアプローチにより、勾配の安定性と長期間の依存関係の学習が可能となり、MNIST や IMDB といった系列タスクで、LSTM や SRU よりもはるかに少ないパラメータで最先端の性能を達成した。特に、並び替えられた MNIST では最大 9.47%、IMDB では 3.07% の性能向上を達成し、より高速で滑らかな学習を維持した。

ABSTRACT

It is a known fact that training recurrent neural networks for tasks that have long term dependencies is challenging. One of the main reasons is the vanishing or exploding gradient problem, which prevents gradient information from propagating to early layers. In this paper we propose a simple recurrent architecture, the Fourier Recurrent Unit (FRU), that stabilizes the gradients that arise in its training while giving us stronger expressive power. Specifically, FRU summarizes the hidden states $h^{(t)}$ along the temporal dimension with Fourier basis functions. This allows gradients to easily reach any layer due to FRU's residual learning structure and the global support of trigonometric functions. We show that FRU has gradient lower and upper bounds independent of temporal dimension. We also show the strong expressivity of sparse Fourier basis, from which FRU obtains its strong expressive power. Our experimental study also demonstrates that with fewer parameters the proposed architecture outperforms other recurrent architectures on many tasks.

研究の動機と目的

長期間の依存関係の学習を妨げる勾配消失・勾配爆発問題を解消するため、再帰的ニューラルネットワーク（RNN）における勾配問題を解決すること。
LSTM や SRU といった既存モデルよりも表現力に優れた再帰アーキテクチャを構築し、特に長い系列に対して強力な性能を発揮すること。
系列長に依存しない勾配の境界を保証することで、時間遡及バックプロパゲーションの安定性を確保すること。
スパースなフーリエ基底表現が、計算効率を維持しながら強力な表現力を提供することを示すこと。
FRU が、LSTM や SRU よりもはるかに少ないパラメータで、ベンチマークとなる系列データセット上で優れた性能を発揮することを実証すること。

提案手法

FRU は、時間的な隠れ状態をフーリエ基底関数の線形結合によって要約することで、グローバルで長距離の文脈モデリングを可能にする。
残差学習構造を採用しており、勾配がすべての層を通過しても劣化しないようにする。
各周波数成分（k）を学習可能なものとして用い、それぞれが異なる時間スケールを捉える。
各時刻で、隠れ状態の統計的要約をフーリエ係数として計算し、学習可能な変換により更新する。
三角関数の性質によりグローバルサポートが保証され、SRU や指数的減衰法とは異なり、系列履歴の任意の点にアクセス可能である。
理論的分析により、線形の場合、FRU が系列長 T に依存しない一定の勾配下限・上限を維持することが示された。

実験結果

リサーチクエスチョン

RQ1フーリエ基底関数を用いる再帰アーキテクチャが、長期間の系列において勾配消失・爆発問題を抑制できるか？
RQ2スパースなフーリエ基底関数は、SRU が用いる指数移動平均よりも優れた表現力を提供するか？
RQ3FRU が、LSTM や SRU よりもはるかに少ないパラメータで、系列モデリングタスクにおいて優れた性能を発揮できるか？
RQ4残差構造とフーリエ表現を組み合わせることで、学習の安定性と収束速度にどのような影響を与えるか？
RQ5FRU が合成データおよび実世界の系列データにおいて、どの程度長期間の依存関係を捉えることができるか？

主な発見

並び替えられた MNIST データセットでは、FRU が 96.93% のテスト精度を達成し、SRU（92.21%）、LSTM（90.26%）、RNN（87.46%）を最大 9.47% 以上上回った。
IMDB 映画レビューデータセットでは、5 個の周波数を用いた FRU が 86.71% の精度を達成し、SRU（86.40%）と LSTM（83.64%）を上回った。パラメータ数はたったの 12K（SRU の 1/19、LSTM の 1/10）。
ゼロ周波数のみを用いた極端なケース（FRU₁,₁₀）は、わずか 4K のパラメータで 86.44% の精度を達成し、RNN よりも 8 倍少ないパラメータで、かつより速く収束した。
すべてのデータセットにおいて、FRU はすべてのベースラインより滑らかな学習曲線と高速な収束を示し、最適化の安定性が向上していることを示した。
理論的分析により、FRU が系列長 T に依存しない一定の勾配ノルム境界（下限・上限）を維持することが確認された。一方、RNN や SRU は T に比例して指数的に増大する。
合成データの実験では、FRU が混合正弦波および多項式系列を正確にモデル化でき、強力な表現能力を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。