Skip to main content
QUICK REVIEW

[論文レビュー] RNN-T For Latency Controlled ASR With Improved Beam Search

Mahaveer Jain, Kjell Schubert|arXiv (Cornell University)|Nov 5, 2019
Speech Recognition and Synthesis参考文献 15被引用数 34
ひとこと要約

本論文は、LC-BLSTMエンコーダを用いたレイテンシー制御付きRNN-T ASRとデコード速度を向上させる改良ビーム探索を提案し、ハイブリッド baseline に対して類似のWERを達成しつつ、スループットを向上させ、rtf@40を低くする。

ABSTRACT

Neural transducer-based systems such as RNN Transducers (RNN-T) for automatic speech recognition (ASR) blend the individual components of a traditional hybrid ASR systems (acoustic model, language model, punctuation model, inverse text normalization) into one single model. This greatly simplifies training and inference and hence makes RNN-T a desirable choice for ASR systems. In this work, we investigate use of RNN-T in applications that require a tune-able latency budget during inference time. We also improved the decoding speed of the originally proposed RNN-T beam search algorithm. We evaluated our proposed system on English videos ASR dataset and show that neural RNN-T models can achieve comparable WER and better computational efficiency compared to a well tuned hybrid ASR baseline.

研究の動機と目的

  • チューニング可能なレイテンシ制約を伴うストリーミングASR用のRNN-Tを調査する。
  • ストリーミング制約下で品質を向上させるため、遅延制御付きのLC-BLSTMをRNN-Tエンコーダに統合する。
  • デコード速度と効率を向上させるためにRNN-Tビーム探索を改善する。
  • 実世界データ上で、エンドツーエンドRNN-Tを適切に調整されたハイブリッドASRベースラインと比較する。
  • 推論時の設定可能なデコード閾値を通じてレイテンシとスループットのトレードオフを示す。

提案手法

  • 右コンテキストとチャンクベースの重ね合わせ処理を用いた音響エンコーダとしてLC-BLSTMを使用し、レイテンシ制御を可能にする。
  • state_beamとexpand_beamのハイパーパラメータを用いたRNN-Tの改良ビーム探索を採用し、仮説を効率的に剪定する。
  • 外部言語モデルを用いエンドツーエンドでモデルを訓練する。
  • 推論をINT8で量子化してデコードを高速化する。
  • DTを設定可能なデコード閾値を用いて英語ビデオデータセットで評価し、レイテンシとWERを検討する。
  • 外部WFSTLMを用いたハイブリッドASRベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1LC-BLSTMを用いたRNN-Tは、競争力のあるWERを維持しつつ、制御可能なレイテンシでストリーミングASRを実現できるか?
  • RQ2提案されたビーム探索の改善(state_beamとexpand_beam)は、精度を損なうことなくスループットを向上させるか?
  • RQ3デコード閾値(DT)の調整はレイテンシ、スループット、WERにどのような影響を与えるか?
  • RQ4動画データにおいて、エンドツーエンドRNN-TはWERと効率の点で調整済みハイブリッドASRとどう比較されるか?

主な発見

  • expand_beam=2.3およびstate_beam=4.6でスループットが53から65に向上し、rtf@40は0.75から0.60へ低下した(WERへの影響は無視できる程度)。
  • LC-BLSTMを用いたRNN-Tは、vid-cleanで63対55、vid-noisyで65対55と、同様の設定でハイブリッドベースラインと同等のWERを達成しつつ高いスループットを提供する。
  • RNN-Tモデル(約65MB)はハイブリッドベースラインの約10倍以上小さく、外部LM/ITNコンポーネントを削除することで訓練とデプロイを単純化する。
  • DT制御の推論はレイテンシとスループットをWERとトレードオフする;より大きなDTはWERを改善するがレイテンシを低減させる;より小さなDTはスループットを低下させWERを増加させる(vid-noisyとvid-cleanの例を示す)。
  • 単方向LSTMエンコーダはLC-BLSTMと比べWERを悪化させるが、それでもストリーム可能であり、DTを用いたレイテンシ制御が有効な戦略であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。