QUICK REVIEW

[論文レビュー] Deep Recurrent Neural Networks for Acoustic Modelling

William Chan, Ian Lane|arXiv (Cornell University)|Apr 7, 2015

Speech Recognition and Synthesis参考文献 9被引用数 31

ひとこと要約

この論文は、音声認識における音響モデル化のためのTC-DNN-BLSTM-DNNモデルを提案する。時間的畳み込みDNNを特徴量処理に、双方向LSTMを文脈モデル化に、最終的なDNNを後方確率推定に用いる。WSJ eval92タスクにおいて3.47%のWERを達成し、ベースラインDNNと比較して8%以上の相対的改善を示した。

ABSTRACT

We present a novel deep Recurrent Neural Network (RNN) model for acoustic modelling in Automatic Speech Recognition (ASR). We term our contribution as a TC-DNN-BLSTM-DNN model, the model combines a Deep Neural Network (DNN) with Time Convolution (TC), followed by a Bidirectional Long Short-Term Memory (BLSTM), and a final DNN. The first DNN acts as a feature processor to our model, the BLSTM then generates a context from the sequence acoustic signal, and the final DNN takes the context and models the posterior probabilities of the acoustic states. We achieve a 3.47 WER on the Wall Street Journal (WSJ) eval92 task or more than 8% relative improvement over the baseline DNN models.

研究の動機と目的

標準DNNよりも長距離の時系列依存性をよりよく捉えることができる深層再帰的アーキテクチャを活用することで、音声認識における音響モデル化を改善すること。
畳み込みニューラルネットワーク（CNN）が長期的時系列パターンをモデル化する点で制限を受けるのを補うために、双方向LSTMユニットを備えた再帰的アーキテクチャを導入すること。
非線形特徴変換、順序的な文脈学習、後方確率推定を1つのエンドツーエンド学習可能なフレームワークに統合するモデルを設計すること。
時間的畳み込みとより深いネットワークアーキテクチャが、WSJコーパスにおけるWERの向上に寄与するかを評価すること。

提案手法

時間的畳み込み（TC）層を用いて、fMLLR特徴量の固定長の文脈窓を処理し、局所的な時系列構造の表現を強化する。
深層DNN（TC-DNN）を特徴量プロセッサとして用い、生の音響特徴量を非線形変換により高次元空間に写像する。
双方向LSTM（BLSTM）層を用いて、変換済み特徴量を前向きおよび後向きの両方向で処理し、包括的な時系列的文脈を捉える。
最終的なDNN層は、BLSTM出力を連結して得られ、発話の音素分類のための後方確率を推定する。
収束を高速化するために、複数のGPUを用いた非同期確率的勾配降下法（ASGD）を用いてモデルを学習する。
事前学習に依存せず、ソフトマックス交差エントロピー損失関数を用いてエンドツーエンドで最適化される。

実験結果

リサーチクエスチョン

RQ1時間的畳み込みと双方向LSTMを備えた深層RNNアーキテクチャが、音声認識の音響モデル化において標準DNNを上回る性能を発揮できるか？
RQ2BLSTMの入力前に非線形特徴処理ステージ（TC-DNN）を導入することで、LSTMへの直接入力と比較してモデル性能が向上するか？
RQ3時間的畳み込みの統合が、音声信号における長期的時系列依存性の学習にどのように影響するか？
RQ4分散非同期SGDトレーニングは、標準SGDと同等のWER性能を達成しつつ、トレーニング時間を短縮できるか？

主な発見

TC-DNN-BLSTM-DNNモデルは、WSJ eval92テストセットで3.47%のWERを達成し、ベースラインDNNモデルと比較して8%以上の相対的改善を示した。
時間的畳み込みを含むモデルは、時間的畳み込みなしの3.76%から3.47%にWERを低下させ、より洗練された入力表現の重要性を示した。
時間的畳み込みを含まないDNN-BLSTM-DNNバージョンは3.76%のWERを示し、128セルのBLSTMモデルと比較して28%の相対的改善を達成した。
分散非同期SGDトレーニングを用いることで、トレーニング時間がSGDの51.5時間からASGDの16.8時間に短縮されたが、評価時のWERはわずかに3.72%に上昇した。
事前学習としてDBNを用いても性能向上が顕著ではなく、ReLUベースのDNN（事前学習なし）が3.79%のWERを達成し、事前学習済みバージョンの3.81%とほぼ同等の性能を示した。
アブレーションスタディの結果、時間的畳み込み、DNN特徴処理、BLSTM文脈モデリング、最終DNNの各コンponentsが最終的な性能に不可欠に寄与していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。