Skip to main content
QUICK REVIEW

[論文レビュー] Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition

Jaeyoung Kim, Mostafa El‐Khamy|arXiv (Cornell University)|Jan 10, 2017
Speech Recognition and Synthesis被引用数 34
ひとこと要約

本論文では、遠距離音声認識のための深層LSTMの学習を改善するために、出力層間に空間的ショートカット接続を導入する残差LSTMを提案する。新しいゲートを追加するのではなく、LSTMの出力ゲートと射影行列を再利用することで、パラメータを10%以上削減し、10層ネットワークでAMI SDMコーパスにおいて41.0%の最先端のWERを達成した。これは、平滑なLSTMおよびハイウェイLSTMよりも優れている。平滑およびハイウェイLSTMは、深さが増すと学習劣化を示した。

ABSTRACT

In this paper, a novel architecture for a deep recurrent neural network, residual LSTM is introduced. A plain LSTM has an internal memory cell that can learn long term dependencies of sequential data. It also provides a temporal shortcut path to avoid vanishing or exploding gradients in the temporal domain. The residual LSTM provides an additional spatial shortcut path from lower layers for efficient training of deep networks with multiple LSTM layers. Compared with the previous work, highway LSTM, residual LSTM separates a spatial shortcut path with temporal one by using output layers, which can help to avoid a conflict between spatial and temporal-domain gradient flows. Furthermore, residual LSTM reuses the output projection matrix and the output gate of LSTM to control the spatial information flow instead of additional gate networks, which effectively reduces more than 10% of network parameters. An experiment for distant speech recognition on the AMI SDM corpus shows that 10-layer plain and highway LSTM networks presented 13.7% and 6.2% increase in WER over 3-layer aselines, respectively. On the contrary, 10-layer residual LSTM networks provided the lowest WER 41.0%, which corresponds to 3.3% and 2.8% WER reduction over plain and highway LSTM networks, respectively.

研究の動機と目的

  • 時間的および空間的領域における勾配消失/爆発の問題により、非常に深層の再帰的ネットワークの学習が困難であるという課題に対処すること。
  • 長期間の依存関係とモデルの深さが重要となる遠距離音声認識において、深層LSTMの性能を向上させること。
  • ハイウェイLSTMアーキテクチャで使われる冗長なゲートネットワークを排除することで、モデルの複雑さを低減すること。
  • 10層などのより深いネットワークが、平滑およびハイウェイLSTMで見られるような性能劣化を示さずに、より良い一般化性能を発揮できるようにすること。
  • 既存のLSTMコンponents(出力ゲートおよび射影行列)をショートカットパスに再利用することで、学習の安定性と効率が向上するかどうかを検討すること。

提案手法

  • 内部メモリセルの代わりに、隣接する出力層間に空間的ショートカットパスを導入し、時間的および空間的勾配フローを分離する。
  • ショートカットパスにおける情報フローを制御するために、既存のLSTM出力ゲートと射影行列を再利用し、追加の可学習パラメータを避ける。
  • 各層がショートカットに対して相対的な残差マッピングを学習するように設計することで、最適化を単純化する。
  • 出力層レベルに残差接続を適用することで、新しいゲートネットワークを必要とせずに情報のアイデンティティに近いバイパスを実現する。
  • 標準のLSTMセル構造を採用するが、深さにわたる勾配フローを維持するために、スイッチバック接続の論理を変更する。
  • 標準的な誤差逆伝搬法を用いてモデルを学習させ、残差接続のおかげで10層でも安定した学習が可能になるようにする。

実験結果

リサーチクエスチョン

  • RQ1出力層間の残差接続が、遠距離音声認識のための深層再帰的ネットワークにおける学習安定性と性能向上に寄与するか?
  • RQ2ショートカットパスに既存のLSTMコンponents(出力ゲートおよび射影行列)を再利用することで、モデルの複雑さを低減しつつ、性能を維持または向上できるか?
  • RQ3残差LSTMの性能は、平滑およびハイウェイLSTMと比較して、WERおよび学習収束の観点でどのように異なるか?
  • RQ4深さが増すに従って、平滑およびハイウェイLSTMで観察された性能劣化を、残差LSTMは回避できるか?
  • RQ5残差アーキテクチャは、特に学習データが増加した場合に、より深いネットワークでより良い一般化性能を発揮できるか?

主な発見

  • 10層の残差LSTMは、AMI SDMコーパスにおいて41.0%の最低WERを達成し、3層の平滑LSTMベースライン比で3.3%の相対的低減を達成した。
  • 10層の残差LSTMは、3層ベースライン比で2.2%のWER低減を示したが、10層の平滑LSTMは非被覆領域WERで13.7%の劣化を示した。
  • 10層のハイウェイLSTMは、3層ベースライン比で6.2%のWER増加を示し、深さに伴う学習劣化を示した。
  • 残差LSTMは、新しいゲートを追加するのではなく既存のゲートを再利用することで、ハイウェイLSTMと比較して10%以上のパラメータ削減を達成した。
  • SDMおよびIHMの学習データを統合した場合、10層の残差LSTMは39.3%のWERを達成し、最良の5層ハイウェイLSTM比で3.1%の低減を達成した。
  • 深さが増すに従って、検証データにおける交差エントロピーが改善され、平滑およびハイウェイLSTMとは異なり、学習損失が発生しない傾向を示した。これは、より良い一般化性能を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。