QUICK REVIEW

[論文レビュー] Long Short-Term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition

Haşim Sak, Andrew Senior|arXiv (Cornell University)|Feb 5, 2014

Speech Recognition and Synthesis参考文献 15被引用数 859

ひとこと要約

本論文は、大規模語彙音声認識におけるパラメータ効率性と性能の向上を目的として、再帰的でない投影層を備えた新規なLSTMベースのRNNアーキテクチャを提案する。提案されたモデルは、DNNや標準LSTMと比較して、特に大規模出力スケールのタスク（例：8000の文脈依存状態）において、より高速な収束を達成し、最先端の認識精度を実現する。

ABSTRACT

Long Short-Term Memory (LSTM) is a recurrent neural network (RNN) architecture that has been designed to address the vanishing and exploding gradient problems of conventional RNNs. Unlike feedforward neural networks, RNNs have cyclic connections making them powerful for modeling sequences. They have been successfully used for sequence labeling and sequence prediction tasks, such as handwriting recognition, language modeling, phonetic labeling of acoustic frames. However, in contrast to the deep neural networks, the use of RNNs in speech recognition has been limited to phone recognition in small scale tasks. In this paper, we present novel LSTM based RNN architectures which make more effective use of model parameters to train acoustic models for large vocabulary speech recognition. We train and compare LSTM, RNN and DNN models at various numbers of parameters and configurations. We show that LSTM models converge quickly and give state of the art speech recognition performance for relatively small sized models.

研究の動機と目的

大規模語彙音声認識における標準LSTMネットワークのスケーラビリティおよびパラメータ効率性の制限を解決すること。
従来のRNNにおける系列モデル化における勾配消失および勾配爆発問題を克服すること。
標準LSTMが性能を発揮しない大規模出力空間（例：8000の文脈依存状態）における認識精度を向上させること。
大規模音声認識タスクにおいて、LSTMベースのモデルが深層ニューラルネットワーク（DNN）を上回ることを実証すること。
再帰的および非再帰的投影層という新しいアーキテクチャ的要素を設計し、再帰的接続を増加させることなく、モデルの柔軟性と性能を向上させること。

提案手法

LSTM層と出力層の間に再帰的投影層を導入し、再帰的パラメータ数を削減しながら長期依存性を保持する。
LSTM層の後に非再帰的投影層を追加し、再帰的接続を追加せずにモデル容量を向上させ、パラメータ配分の柔軟性を高める。
LSTMユニットにおいて、セル入力および出力ユニットには双曲正接（tanh）活性化関数を、入力、出力、忘却ゲートにはロジスティックシグモイド関数を用いる。
メモリセルからゲートへのピーチョール接続を導入し、出力生成におけるタイミング精度を向上させる。
非分割シーケンスデータに対するエンドツーエンド学習を可能にするために、接続主義的時系列分類（CTC）を採用し、音声モデリングと言語モデリングを統合最適化可能にする。
入力として25msのログフィルタバンクエネルギー特徴（40次元）を用い、出力ラベルを5フレーム分遅延させることで文脈認識を向上させる。

実験結果

リサーチクエスチョン

RQ1投影層を備えたLSTMベースのRNNアーキテクチャは、大規模語彙音声認識タスクにおいて、標準LSTMやDNNを上回ることができるか？
RQ2再帰的および非再帰的投影層は、大規模音声モデルにおけるパラメータ効率性および認識精度にどのように影響を与えるか？
RQ3提案されたアーキテクチャは、長系列モデリングにおける勾配消失および勾配爆発問題をどの程度軽減できるか？
RQ4再帰的および非再帰的投影層の両方を含めることで、単一のタイプのみを用いる場合と比較して、性能が向上するか？
RQ5DNNがこれまで優勢であった分野において、LSTMモデルが大規模語彙音声認識で最先端の性能を達成できるか？

主な発見

再帰的および非再帰的投影層を備えた提案されたLSTMアーキテクチャは、標準LSTMおよびDNNモデルを著しく上回り、特に大規模出力スケールのタスク（例：8000の文脈依存状態）において顕著な優位性を示す。
2000の文脈依存状態を持つモデルでは、LSTM_c1024_r256構成がDNN_10w5_5_512_lr256モデルよりも優れた語誤り率（WER）を達成し、DNNを上回ることを示した。
512個のメモリセルを有するLSTM_c512モデルは、DNN_10w5_2_864_lr256モデルよりも優れた性能を示し、DNNにおける深さの重要性を強調した。
提案されたアーキテクチャは、標準RNNが勾配爆発および不安定性に苦しむのと比較して、より高速に収束し、より安定した学習を示した。
再帰的および非再帰的投影層を両方備えたLSTMネットワーク（例：LSTM_1024_256）は、同じパラメータ数を有する標準LSTM（例：LSTM_1024）よりも高いフレーム正答率を達成した。
結果から、DNNにおける深さが極めて重要であることが示された。隠れ層数を2から5に増加させることで性能が著しく向上したが、それでも提案されたLSTMアーキテクチャに劣っていた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。