QUICK REVIEW

[論文レビュー] RNN-T For Latency Controlled ASR With Improved Beam Search

Mahaveer Jain, Kjell Schubert|arXiv (Cornell University)|Nov 5, 2019

Speech Recognition and Synthesis参考文献 15被引用数 34

ひとこと要約

本論文は、LC-BLSTMエンコーダを用いたレイテンシー制御付きRNN-T ASRとデコード速度を向上させる改良ビーム探索を提案し、ハイブリッド baseline に対して類似のWERを達成しつつ、スループットを向上させ、rtf@40を低くする。

ABSTRACT

Neural transducer-based systems such as RNN Transducers (RNN-T) for automatic speech recognition (ASR) blend the individual components of a traditional hybrid ASR systems (acoustic model, language model, punctuation model, inverse text normalization) into one single model. This greatly simplifies training and inference and hence makes RNN-T a desirable choice for ASR systems. In this work, we investigate use of RNN-T in applications that require a tune-able latency budget during inference time. We also improved the decoding speed of the originally proposed RNN-T beam search algorithm. We evaluated our proposed system on English videos ASR dataset and show that neural RNN-T models can achieve comparable WER and better computational efficiency compared to a well tuned hybrid ASR baseline.

研究の動機と目的

チューニング可能なレイテンシ制約を伴うストリーミングASR用のRNN-Tを調査する。
ストリーミング制約下で品質を向上させるため、遅延制御付きのLC-BLSTMをRNN-Tエンコーダに統合する。
デコード速度と効率を向上させるためにRNN-Tビーム探索を改善する。
実世界データ上で、エンドツーエンドRNN-Tを適切に調整されたハイブリッドASRベースラインと比較する。
推論時の設定可能なデコード閾値を通じてレイテンシとスループットのトレードオフを示す。

提案手法

右コンテキストとチャンクベースの重ね合わせ処理を用いた音響エンコーダとしてLC-BLSTMを使用し、レイテンシ制御を可能にする。
state_beamとexpand_beamのハイパーパラメータを用いたRNN-Tの改良ビーム探索を採用し、仮説を効率的に剪定する。
外部言語モデルを用いエンドツーエンドでモデルを訓練する。
推論をINT8で量子化してデコードを高速化する。
DTを設定可能なデコード閾値を用いて英語ビデオデータセットで評価し、レイテンシとWERを検討する。
外部WFSTLMを用いたハイブリッドASRベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1LC-BLSTMを用いたRNN-Tは、競争力のあるWERを維持しつつ、制御可能なレイテンシでストリーミングASRを実現できるか？
RQ2提案されたビーム探索の改善（state_beamとexpand_beam）は、精度を損なうことなくスループットを向上させるか？
RQ3デコード閾値(DT)の調整はレイテンシ、スループット、WERにどのような影響を与えるか？
RQ4動画データにおいて、エンドツーエンドRNN-TはWERと効率の点で調整済みハイブリッドASRとどう比較されるか？

主な発見

expand_beam=2.3およびstate_beam=4.6でスループットが53から65に向上し、rtf@40は0.75から0.60へ低下した（WERへの影響は無視できる程度）。
LC-BLSTMを用いたRNN-Tは、vid-cleanで63対55、vid-noisyで65対55と、同様の設定でハイブリッドベースラインと同等のWERを達成しつつ高いスループットを提供する。
RNN-Tモデル（約65MB）はハイブリッドベースラインの約10倍以上小さく、外部LM/ITNコンポーネントを削除することで訓練とデプロイを単純化する。
DT制御の推論はレイテンシとスループットをWERとトレードオフする；より大きなDTはWERを改善するがレイテンシを低減させる；より小さなDTはスループットを低下させWERを増加させる（vid-noisyとvid-cleanの例を示す）。
単方向LSTMエンコーダはLC-BLSTMと比べWERを悪化させるが、それでもストリーム可能であり、DTを用いたレイテンシ制御が有効な戦略であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。