Skip to main content
QUICK REVIEW

[論文レビュー] Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech Recognition

Binbin Zhang, Di Wu|arXiv (Cornell University)|Dec 10, 2020
Speech Recognition and Synthesis参考文献 26被引用数 46
ひとこと要約

本論文は、動的チャンクアテンションを備えた統一型の二パスハイブリッドCTC/アテンションE2EモデルU2を提案し、ストリーミングと非ストリーミングのASRの両方をサポートします。チャンクサイズでレイテンシを制御可能で、注視リスコアリング(attention rescoring)により精度と速度を向上します。

ABSTRACT

In this paper, we present a novel two-pass approach to unify streaming and non-streaming end-to-end (E2E) speech recognition in a single model. Our model adopts the hybrid CTC/attention architecture, in which the conformer layers in the encoder are modified. We propose a dynamic chunk-based attention strategy to allow arbitrary right context length. At inference time, the CTC decoder generates n-best hypotheses in a streaming way. The inference latency could be easily controlled by only changing the chunk size. The CTC hypotheses are then rescored by the attention decoder to get the final result. This efficient rescoring process causes very little sentence-level latency. Our experiments on the open 170-hour AISHELL-1 dataset show that, the proposed method can unify the streaming and non-streaming model simply and efficiently. On the AISHELL-1 test set, our unified model achieves 5.60% relative character error rate (CER) reduction in non-streaming ASR compared to a standard non-streaming transformer. The same model achieves 5.42% CER with 640ms latency in a streaming ASR system.

研究の動機と目的

  • ストリーミングと非ストリーミングのエンドツーエンドASRを1つのモデルに統合する動機付け。
  • レイテンシを制御するための動的チャンクアテンションを備えた二パスのCTC/アテンションアーキテクチャを開発。
  • 複雑なRNN-Tトレーニング技法を使わず、CTCとAEDの結合損失を用いてトレーニングを簡素化する。
  • 統一モデルがAISHELL-1でストリーミングと非ストリーミングの競争力のある性能を達成できることを示す。

提案手法

  • Shared Encoderを持つハイブリッドCTC/アテンションアーキテクチャを採用し、CTCデコーダとアテンションデコーダを分離する。
  • 任意の右文脈を許し、チャンクサイズによって推測時のレイテンシを制御する動的チャンクベースのアテンションを使用する。
  • 最適化を簡素化するためにCTCとAEDの結合損失で訓練する(L_combined = λ L_CTC + (1−λ)(L_AED-L + L_AED-R)。)
  • Conformerエンコーダに因果畳み込みを採用し、レイテンシをネットワークの深さから切り離す。
  • デコード時にはストリーミングのn-best CTC仮説を生成し、Attentionデコーダでリスコアリングして最終結果を得る。
  • 遅延と精度のバランスをとるため、2段階デコード方式を提供する(CTCのファーストパスをストリーミングデコードで行い、続いてアテンションベースのリスコアリングを適用)。
  • 静的チャンク訓練と動的チャンク訓練の比較、およびストリーミングと非ストリーミングモードを統一する動的チャンクスケジューリング戦略を検討する。

実験結果

リサーチクエスチョン

  • RQ11つのモデルが競争力のある精度でストリーミングと非ストリーミングのASRの両方を同時にサポートできるか?
  • RQ2動的チャンクアテンションの価格設定が推論時の遅延と精度のトレードオフにどう影響するか?
  • RQ3CTC生成仮説のアテンションリスコアリングは、自動回帰型アテンションデコーディングだけよりリアルタイム性能を向上させるか?
  • RQ4どの訓練戦略(静的チャンク vs 動的チャンク、チャンクサイズ分布)がストリーミングと非ストリーミングの挙動を最もよく統一できるか?

主な発見

  • AISHELL-1では、統一モデルが従来の非ストリーミングTransformerに対して非ストリーミングASRの相対CERを5.60%削減する。
  • ストリーミングモードでは、同じモデルが640 msの遅延でCER=5.33%を達成。
  • CTC仮説のアテンションリスコアリングは、リスコアリング時のCTCウェイトを0.5とするとCERを4.72に改善(CTCプレフィックスビーム探索や単独の自己回帰アテンションより良い)。
  • アテンションリスコアリングは自己回帰型アテンションデコーダより高速に動作し、報告設定でデコード時間を約2.40倍のスピードアップを達成。
  • 動的チャンク訓練は静的チャンク訓練と同等の性能を提供し、中程度のチャンクサイズ(例: 16/8/4)で静的構成を上回ることもあり、遅延-精度のトレードオフを可能にする。
  • 本手法はAISHELL-1でストリーミング最先端の精度を達成し、15,000時間規模の大規模中国語データセットにも競争力のある結果でスケールする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。