QUICK REVIEW

[論文レビュー] Tunable Efficient Unitary Neural Networks (EUNN) and their application to RNNs

Jing Li, Yichen Shen|arXiv (Cornell University)|Dec 15, 2016

Speech Recognition and Synthesis参考文献 22被引用数 97

ひとこと要約

この論文では、$Ó(1)$のパラメータあたりの計算コストで全ユニタリ行列空間をパrameter化する、新しいRNNアーキテクチャであるTunable Efficient Unitary Neural Networks (EUNNs)を紹介する。これにより、勾配消失／爆発の問題が生じない安定した学習が可能になる。EUNNsは、コピートラック、並べ替えMNIST、TIMIT音声予測といった長期間シーケンスタスクにおいて、LSTMや先行のユニタリRNNを上回る精度と高速な学習速度を達成し、最先端の性能を発揮する。

ABSTRACT

Using unitary (instead of general) matrices in artificial neural networks (ANNs) is a promising way to solve the gradient explosion/vanishing problem, as well as to enable ANNs to learn long-term correlations in the data. This approach appears particularly promising for Recurrent Neural Networks (RNNs). In this work, we present a new architecture for implementing an Efficient Unitary Neural Network (EUNNs); its main advantages can be summarized as follows. Firstly, the representation capacity of the unitary space in an EUNN is fully tunable, ranging from a subspace of SU(N) to the entire unitary space. Secondly, the computational complexity for training an EUNN is merely $\mathcal{O}(1)$ per parameter. Finally, we test the performance of EUNNs on the standard copying task, the pixel-permuted MNIST digit recognition benchmark as well as the Speech Prediction Test (TIMIT). We find that our architecture significantly outperforms both other state-of-the-art unitary RNNs and the LSTM architecture, in terms of the final performance and/or the wall-clock training speed. EUNNs are thus promising alternatives to RNNs and LSTMs for a wide variety of applications.

研究の動機と目的

ユニタリ重み行列を活用することで、バックプロパゲーション中に勾配安定性を保つことにより、RNNにおける勾配消失・爆発問題に対処すること。
投影に基づく最適化や制限された部分空間に依存する先行のユニタリRNNの限界を克服すること。これらは計算コストが高く、表現力に欠ける。
部分空間から全ユニタリ空間まで、調整可能な表現能力を実現しつつ、計算効率を維持できる、全ユニタリ群のパrameter化を開発すること。
コピートラック、ピクセル並べ替えMNIST、TIMITでの音声予測といった長期間順序学習ベンチマークで、パラメータ数を減らし、高速な学習を実現する優れた性能を示すこと。

提案手法

調整可能な構造を持つ回転行列の積を用いたユニタリ行列の新しいパrameter化を提案し、ユニタリ空間$U(N)$またはその部分空間を完全にカバー可能にする。
各パラメータの更新と勾配計算が、パラメータ1つあたり$Ó(1)$の演算で済むようにアーキテクチャを設計し、線形時間の学習複雑度を達成する。
2種類のバリエーションを実装：柔軟な容量制御が可能なチューナブルスタイルのEUNNと、最小限のパラメータ数と効率的な近似が可能なFFTスタイル。
学習中に投影ステップを回避する再パラメータ化戦略を採用し、反復的なユニタリ制約の必要性を排除し、計算オーバーヘッドを低減する。
標準の隠れ状態間重み行列を、回転行列によるパrameter化されたユニタリ行列に置き換えることで、EUNNを再帰的ネットワークに適用する。
チェーンルールを用いた標準的なバックプロパゲーションで学習を実行し、ユニタリ変換のヤコビ行列を閉形式の導関数を用いて効率的に計算する。

実験結果

リサーチクエスチョン

RQ1投影に基づく最適化に依存せずに、全ユニタリ群$U(N)$をカバーするユニタリRNNアーキテクチャを設計できるか？
RQ2パラメータ1つあたり$Ó(1)$の計算コストを達成するユニタリRNNは、長期間シーケンスタスクにおいて、既存の手法よりも優れた学習効率と性能を発揮するか？
RQ3ユニタリRNNの表現能力を、短期間記憶タスクに適した低容量から、長期間依存性を必要とするタスクに適した高容量まで、タスク固有のニーズに合わせて調整可能か？
RQ4TIMIT や並べ替えMNISTといった実世界のベンチマークにおいて、EUNNアーキテクチャはLSTMや他のユニタリRNNと比較して、最終的な精度とウォールクロック時間での学習速度で優れているか？
RQ5積分解釈における異なる行列順序のスケームに対しても、計算効率とユニタリ空間の完全カバレッジを維持しながら、EUNNアーキテクチャが頑健であるか？

主な発見

EUNNアーキテクチャは、順方向および逆方向の両方の計算において、パラメータ1つあたり$Ó(1)$の計算コストを達成し、先行の全空間ユニタリRNN手法（Wisdom et al., 2016）よりも$Ó(\log N)$の計算効率を発揮する。
コピートラックでは、隠れ層サイズ128で100%の精度に到達し、LSTMおよび先行のユニタリRNNを上回る。
ピクセル並べ替えMNISTでは、33,000パラメータで97.5%のテスト精度を達成し、LSTMベースラインおよび先行のユニタリRNNを大きく上回る。
TIMIT音声予測タスクでは、全容量EUNNがテストMSE 51.9を達成し、LSTM（テストMSE 54.5）および他のユニタリRNNバージョンを上回る。
調整可能な容量を持つEUNN（例：128(2) や 128(32)）は、コピートラックのような短期間記憶タスクには小さな部分空間で十分であり、音声予測のような複雑なタスクにはより大きな部分空間が必要であることを示している。
FFTスタイルのEUNNバージョンは、より少ないパラメータ数で全EUNNと同等の性能を達成しており、精度を損なわず、効率的な近似が可能であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。