QUICK REVIEW

[論文レビュー] AntisymmetricRNN: A Dynamical System View on Recurrent Neural Networks

Bo Chang, Minmin Chen|arXiv (Cornell University)|Feb 26, 2019

Neural Networks and Applications被引用数 86

ひとこと要約

本論文は AntisymmetricRNN を ODE 安定性の枠組みから導出し、安定したダイナミクスとパラメータ削減で長期依存性をモデル化できるようにし、長期タスクで LSTM を上回る性能を示す。

ABSTRACT

Recurrent neural networks have gained widespread use in modeling sequential data. Learning long-term dependencies using these models remains difficult though, due to exploding or vanishing gradients. In this paper, we draw connections between recurrent networks and ordinary differential equations. A special form of recurrent networks called the AntisymmetricRNN is proposed under this theoretical framework, which is able to capture long-term dependencies thanks to the stability property of its underlying differential equation. Existing approaches to improving RNN trainability often incur significant computation overhead. In comparison, AntisymmetricRNN achieves the same goal by design. We showcase the advantage of this new architecture through extensive simulations and experiments. AntisymmetricRNN exhibits much more predictable dynamics. It outperforms regular LSTM models on tasks requiring long-term memory and matches the performance on tasks where short-term dependencies dominate despite being much simpler.

研究の動機と目的

ダイナミカルシステムの観点からRNNの学習性の問題（勾配の爆発/消失）を動機づける。
反対称ODEを離散化して安定性を持つ再帰アーキテクチャを設計する。
得られたAntisymmetricRNNが少ないパラメータで長期依存性を捕捉できることを示す。
LSTMや他のベースラインと比較して長距離シーケンスタスクで経験的な利点を示す。

提案手法

隠れ状態のダイナミクスをODE h'(t)=tanh((W_h−W_h^T)h(t)+V_h x(t)+b_h)としてモデル化する。
前方オイラー法で離散化して h_t=h_{t-1}+ε tanh((W_h−W_h^T)h_{t-1}+V_h x_t+b_h) を得る。
反対称移動行列 W_h−W_h^T を用いてヤコビ行列の固有値を純虚数とし、実部 Re(λ)=0 を保証する。
必要に応じて拡散項 γI を加えて前方オイラーの安定性を確保する： h_t=h_{t-1}+ε tanh((W_h−W_h^T−γI)h_{t-1}+V_h x_t+b_h).
必要に応じて入力ゲート z_t を導入してゲーティングを行う： z_t=σ((W_h−W_h^T−γI)h_{t-1}+V_z x_t+b_z) および h_t=h_{t-1}+ε z_t∘tanh((W_h−W_h^T−γI)h_{t-1}+V_h x_t+b_h).

実験結果

リサーチクエスチョン

RQ1離散化されたRNNのダイナミクスを安定的/臨界的ODEの挙動と整合させることで、RNNの学習性と長期依存性の学習を改善できるか？
RQ2再帰ウェイトに反対称構造を強制することで、Jacobianの実部がほぼゼロとなり勾配の爆発/消失を抑制できるか？
RQ3拡散とゲーティングを伴うAntisymmetricRNNのバリアントは、標準のLSTMや他のベースラインと比べて長距離シーケンスタスクでどう比較されるか？
RQ4拡散（γ）とゲーティングが安定性、勾配伝播、パフォーマンスに与える影響はどれほどか？

主な発見

Method	MNIST	pMNIST	# units	# params
LSTM	97.3%	92.6%	128	68k
FC uRNN	92.8%	92.1%	116	16k
FC uRNN	96.9%	94.1%	512	270k
Soft orthogonal	94.1%	91.4%	128	18k
KRU	96.4%	94.5%	512	11k
AntisymmetricRNN	98.0%	95.8%	128	10k
AntisymmetricRNN w/ gating	98.8%	93.1%	128	10k

AntisymmetricRNNは安定で予測可能なダイナミクスを示し、過度な計算負荷なしに勾配の問題を緩和する。
パーミュートピクセルMNISTで、AntisymmetricRNNは98.0%（128ユニット）を達成、LSTMの97.3%より少ないパラメータで；ゲーティングを用いると98.8%（128ユニット）。
ピクセルごとCIFAR-10で、AntisymmetricRNNは256ユニットと36kパラメータでLSTMと同等、ゲーティング付きのAntisymmetricRNNはLSTMをやや上回る（62.2%対59.7%、最終行）で約37kパラメータ。
ノイズを付加したCIFAR-10（長距離依存性タスク）ではLSTMは訓練できず、さまざまな γ を用いたAntisymmetricRNNはエンドツーエンドの Jacobian 固有値を単位近くに維持し、より長いシーケンスで訓練を可能にする。
アブレーションにより反対称パラメータ化が非構造ウェイトより性能を改善することが示され、反対称構造以外にも安定な条件が存在し得る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。