Skip to main content
QUICK REVIEW

[論文レビュー] Efficient Orthogonal Parametrisation of Recurrent Neural Networks Using Householder Reflections

Zakaria Mhammedi, Andrew Hellicar|arXiv (Cornell University)|Dec 1, 2016
Domain Adaptation and Few-Shot Learning参考文献 12被引用数 32
ひとこと要約

本稿では、勾配消失・爆発を防ぐために直交性を保証するハウスホルダー変換を用いた、再帰的ニューラルネットワーク(RNN)遷移行列の新規で効率的なパrametrizationを提案する。この手法により、標準的なRNNと同等の時間計算量を達成し、低バッチ設定下で先行する直交パrametrizationを上回り、文字レベルの言語モデリングおよびシーケンスコピー課題において、最先端の結果を達成または上回る性能を発揮する。

ABSTRACT

The problem of learning long-term dependencies in sequences using Recurrent Neural Networks (RNNs) is still a major challenge. Recent methods have been suggested to solve this problem by constraining the transition matrix to be unitary during training which ensures that its norm is equal to one and prevents exploding gradients. These methods either have limited expressiveness or scale poorly with the size of the network when compared with the simple RNN case, especially when using stochastic gradient descent with a small mini-batch size. Our contributions are as follows; we first show that constraining the transition matrix to be unitary is a special case of an orthogonal constraint. Then we present a new parametrisation of the transition matrix which allows efficient training of an RNN while ensuring that the matrix is always orthogonal. Our results show that the orthogonal constraint on the transition matrix applied through our parametrisation gives similar benefits to the unitary constraint, without the time complexity limitations.

研究の動機と目的

  • 長期間の依存関係を学習する際のRNNにおける勾配消失・爆発の課題に対処すること。
  • 既存の直交的およびユニタリRNNパrametrizationの限界(計算コストの高さや表現力の制限)を克服すること。
  • 最小限の計算オーバーヘッドでRNN遷移行列に直交性を強制するパrametrizationを開発すること、特に小規模ミニバッチ設定下での有効性を重視すること。
  • ハウスホルダー変換による直交制約が、ユニタリRNNを凌駆するか同等の性能を発揮しつつ、よりスケーラブルかつ効率的であることを示すこと。

提案手法

  • RNN遷移行列をハウスホルダー反射の積としてパrametr化し、構成上直交性を保証する。
  • 学習可能なパrameterとして反射ベクトルの集合を用い、直交性を維持したまま勾配ベース最適化を可能にする。
  • ハウスホルダーパラメータに関する勾配の正確なバックプロパゲーション式を導出することで、エンドツーエンド学習を可能にする。
  • 1ステップあたりO(n²)時間で勾配更新を計算する効率的なアルゴリズムを設計し、標準RNNと同等の計算複雑度を達成する。
  • 文字レベルの言語モデリングおよびシーケンスコピー課題にこのパrametrizationを適用し、LSTMおよびユニタリRNNベースラインと比較する。
  • 長期記憶を要するタスクでの性能向上を図るため、U活性化関数(ノルム保存型)を用いる。特に残差接続が存在しない状況での有効性を強調する。

実験結果

リサーチクエスチョン

  • RQ1ハウスホルダー変換による直交パrametrizationは、標準RNNと同等の時間計算量でRNNの安定した学習を達成できるか?
  • RQ2提案手法の直交RNN(oRNN)は、ユニタリRNNおよびLSTMと比較して、長期依存性タスクでどの程度の性能を発揮するか?
  • RQ3小規模ミニバッチSGD設定下で、ハウスホルダーに基づくパrametrizationは既存手法よりもスケーラブルに性能を発揮するか?
  • RQ4長距離依存性を学習する際、活性化関数の選択がoRNNの性能に与える影響は何か?
  • RQ5本手法は、直交重み行列を必要とする他の深層アーキテクチャへ一般化可能か?

主な発見

  • 提案手法のoRNNは、Penn Treebankの1ステップ先予測タスクで1.68 bpcのテスト交差エントロピーを達成し、同程度のパラメータ数を持つLSTMと同等の性能を発揮した。
  • 5ステップ先予測タスクでは3.85 bpcを達成し、Pascanuら(2013)が報告した最先端の3.74 bpcと同等の結果となった。
  • ソフト・ハード直交制約を用いた先行研究(Vorontsovら、2017)は、データのサブセットで最小2.20 bpcのテストコストに留まったが、oRNNはこれを上回った。
  • oRNNの1勾配ステップあたりの時間計算量はO(n²)であり、標準RNNと同等で、小規模ミニバッチ条件下でO(BTn² + n³)のスケーリングを示す他の直交手法に比べ顕著に優れた。
  • U活性化関数を用いることで、コピー課題において競争力ある性能を発揮したが、ReLUに類似した活性化関数を用いたユニタリRNNに比べやや性能が劣った。これはアーキテクチャの相違が結果に影響を及える可能性を示唆している。
  • 他の直交パrametrizationが小規模ミニバッチ(例:B=1)条件下で計算コストが著しく高くなる中、本手法は効率的な学習が可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。