Skip to main content
QUICK REVIEW

[論文レビュー] Full-Capacity Unitary Recurrent Neural Networks

Scott Wisdom, Thomas A. Powers|arXiv (Cornell University)|Oct 31, 2016
Neural Networks and Applications参考文献 19被引用数 114
ひとこと要約

本論文は、Stiefel多様体上のすべてのユニタリ行列を最適化する全容量のunitary recurrent neural networks (uRNNs) を提案し、restricted-capacity parameterizations は N>7 の場合すべてのユニタリ行列をカバーできないことを証明し、LSTMs および prior restricted-uRNNs より優れた性能を示します。

ABSTRACT

Recurrent neural networks are powerful models for processing sequential data, but they are generally plagued by vanishing and exploding gradient problems. Unitary recurrent neural networks (uRNNs), which use unitary recurrence matrices, have recently been proposed as a means to avoid these issues. However, in previous experiments, the recurrence matrices were restricted to be a product of parameterized unitary matrices, and an open question remains: when does such a parameterization fail to represent all unitary matrices, and how does this restricted representational capacity limit what can be learned? To address this question, we propose full-capacity uRNNs that optimize their recurrence matrix over all unitary matrices, leading to significantly improved performance over uRNNs that use a restricted-capacity recurrence matrix. Our contribution consists of two main components. First, we provide a theoretical argument to determine if a unitary parameterization has restricted capacity. Using this argument, we show that a recently proposed unitary parameterization has restricted capacity for hidden state dimension greater than 7. Second, we show how a complete, full-capacity unitary recurrence matrix can be optimized over the differentiable manifold of unitary matrices. The resulting multiplicative gradient step is very simple and does not require gradient clipping or learning rate adaptation. We confirm the utility of our claims by empirically evaluating our new full-capacity uRNNs on both synthetic and natural data, achieving superior performance compared to both LSTMs and the original restricted-capacity uRNNs.

研究の動機と目的

  • 再帰ネットワークにおける勾配の消失・発散をユニタリ recur­rences を用いて動機づけ・対処する。
  • 既存のユニタリーパラメータ化がユニタリ群をすべて網羅しているかを評価する。
  • ユニタリ多様体上での最適化を開発し、全容量のuRNNを達成する。
  • 多様なタスクで全容量のuRNNをLSTMsおよびrestricted-capacity uRNNsと経験的に比較する。

提案手法

  • 論文は構造化されたユニタリパラメータ化の容量を分析し、Sardの定理を用いて次元N>7に対して制限されていることを証明する。
  • グラデントから導出される A に基づく乗法的 Cayley-like 更新 (I + (lambda/2)A)^{-1}(I - (lambda/2)A)W により、全容量の W を訓練するためのStiefel多様体上の最適化を導入する。
  • Recurrence 行列以外のすべてのパラメータには RMSprop を用い、Stiefel多様体上での勾配クリッピングなしで固定学習率更新を行う。
  • Theano を用いてこのアプローチを実装し、fair な比較のために restricted uRNN のベースラインを模倣する。
  • 実験はsynthetic system identification と長期記憶タスク、音声 STFT フレーム予測、および Pixel-by-pixel MNIST を含む。

実験結果

リサーチクエスチョン

  • RQ1隠れ状態次元 N に対して restricted-capacity ユニタリパラメータ化はすべてのユニタリ行列を表現できるか。
  • RQ2全容量のユニタリ再帰行列を訓練することで、restricted-capacity uRNN より学習と一般化が改善されるか。
  • RQ3全容量 uRNN は長距離依存タスクや実世界データにおいて LSTMs に対してどのように性能するか。
  • RQ4restricted と全容量 uRNN を比較したとき、synthetic および natural data タスクで経験的な利得はどの程度生じるか。

主な発見

  • restricted-capacity パラメータ化は N>7 のときすべてのユニタリ行列をカバーできない。
  • 全容量 uRNN は restricted-capacity uRNN および LSTMs を、長期記憶や音声フレーム予測を含む複数のタスクで上回る。
  • synthetic system identification において、N>7 の場合全容量 uRNN は restricted-capacity バリアントより低いテスト MSE を達成する。
  • コピー記憶問題(長い系列)では全容量 uRNN はクロスエントロピーを0へ収束する一方、restricted-capacity バリアントは収束しない。
  • 音声データの STFT 対数振幅予測では、全容量 uRNN は同等のパラメータ数の restricted-capacity 相手より低い MSE かつ知覚指標が良好。
  • ピクセルごと MNIST では、比較可能なパラメータ数の全容量 uRNN が LSTM の性能に匹敵・上回る設定があり、しばしば restricted-capacity uRNN より上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。