Skip to main content
QUICK REVIEW

[論文レビュー] Quaternion Recurrent Neural Networks

Titouan Parcollet, Mirco Ravanelli|HAL (Le Centre pour la Communication Scientifique Directe)|Jun 12, 2018
Neural Networks and Applications被引用数 42
ひとこと要約

この論文は四元数値の再帰的ニューラルネットワーク(QRNN)と四元数LSTM(QLSTM)を導入し、外部および内部特徴の依存性を四元数代数でモデル化することで、TIMIT(およびWSJ)において実数値RNN/LSTMよりはるかに少ないパラメータで音素認識を改善する。

ABSTRACT

Recurrent neural networks (RNNs) are powerful architectures to model sequential data, due to their capability to learn short and long-term dependencies between the basic elements of a sequence. Nonetheless, popular tasks such as speech or images recognition, involve multi-dimensional input features that are characterized by strong internal dependencies between the dimensions of the input vector. We propose a novel quaternion recurrent neural network (QRNN), alongside with a quaternion long-short term memory neural network (QLSTM), that take into account both the external relations and these internal structural dependencies with the quaternion algebra. Similarly to capsules, quaternions allow the QRNN to code internal dependencies by composing and processing multidimensional features as single entities, while the recurrent operation reveals correlations between the elements composing the sequence. We show that both QRNN and QLSTM achieve better performances than RNN and LSTM in a realistic application of automatic speech recognition. Finally, we show that QRNN and QLSTM reduce by a maximum factor of 3.3x the number of free parameters needed, compared to real-valued RNNs and LSTMs to reach better results, leading to a more compact representation of the relevant information.

研究の動機と目的

  • 逐次データの内部および外部の依存性を捉えるため、四元数代数を活用して多次元特徴量のモデリングを促進する。
  • 四元数値入力・重み・活性化を備えたQRNNおよびQLSTMアーキテクチャを提案する。
  • QBPTTを含む四元数特有の学習アルゴリズムと、四元数対応のパラメータ初期化を開発する。
  • 音声認識ベンチマーク(TIMIT、WSJ)で性能とパラメータ効率の向上を実証する。
  • パラメータ数の削減によるリソース制約デバイスへの潜在的な恩恵を強調する。

提案手法

  • レイヤ変換にハミルトン積を用いた四元数値演算へRNNを拡張する。
  • 各四元数成分(実部、i、j、k)を個別に活性化する分割活性化を用いる。
  • 四元数値重み全体に渡る勾配を計算するため、QBPTT(quaternion backpropagation through time)を適用する。
  • 極形式と四元数正規化に基づく四元数特有の重み初期化手順を導入する。
  • 成分ごとのゲートを持つQLSTMの方程式と、双方向学習設定を導出する。

実験結果

リサーチクエスチョン

  • RQ1四元数値RNN(QRNN)およびQLSTMは、実数値対応と比較して、内部特徴依存性と特徴間依存性をより効率的に捉えることができるだろうか?
  • RQ2QRNNおよびQLSTMは、はるかに少ないパラメータで競争力のあるまたは優れた音素認識を達成するだろうか?
  • RQ3標準的な音声ベンチマーク(例:TIMIT、WSJ)におけるQRNN/QLSTMの性能は、RNN/LSTMと比較してどうか?
  • RQ4安定した四元数値ネットワークのために、どの初期化および学習戦略が有効か?

主な発見

  • QRNNとQLSTMはRNNおよびLSTMのベースラインをTIMITで音素誤り率(PER)の点で上回る。
  • Best TIMIT test PERs: QRNN 18.5% and QLSTM 15.1%, vs RNN 19.0% and LSTM 15.3%.
  • QRNNおよびQLSTMは、実数値対応より最大 3.3x 少ない学習可能パラメータで同等またはそれ以上の性能を達成する。
  • QRNNsおよびQLSTMsは、アーキテクチャ全体で顕著なパラメータ効率を示し、例えば一部の構成で4倍〜16倍の削減。
  • モデル間で、四元数変種は競争力のあるPERを維持しつつパラメータの一部しか使用していない(例:QRNN with 256 neurons: 3.8M params vs RNN 9.4M; QLSTM with 256 neurons: 14.4M vs LSTM 46.2M)。
  • Table 1 and Table 2 report detailed PER and parameter counts for multiple configurations on TIMIT.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。