Skip to main content
QUICK REVIEW

[論文レビュー] Transformer Transducer: One Model Unifying Streaming and Non-streaming Speech Recognition

Anshuman Tripathi, Jaeyoung Kim|arXiv (Cornell University)|Oct 7, 2020
Speech Recognition and Synthesis参考文献 11被引用数 30
ひとこと要約

単一のモデル内で変動する右文脈層を使用する Transformer Transducer アーキテクチャを提示し、ストリーミング(低遅延)と非ストリーミング(高精度)の両方の音声認識を実現する。Y-model 並列デコードと制約付きアライメント訓練を用いて遅延と精度のバランスを取る。

ABSTRACT

In this paper we present a Transformer-Transducer model architecture and a training technique to unify streaming and non-streaming speech recognition models into one model. The model is composed of a stack of transformer layers for audio encoding with no lookahead or right context and an additional stack of transformer layers on top trained with variable right context. In inference time, the context length for the variable context layers can be changed to trade off the latency and the accuracy of the model. We also show that we can run this model in a Y-model architecture with the top layers running in parallel in low latency and high latency modes. This allows us to have streaming speech recognition results with limited latency and delayed speech recognition results with large improvements in accuracy (20% relative improvement for voice-search task). We show that with limited right context (1-2 seconds of audio) and small additional latency (50-100 milliseconds) at the end of decoding, we can achieve similar accuracy with models using unlimited audio right context. We also present optimizations for audio and label encoders to speed up the inference in streaming and non-streaming speech decoding.

研究の動機と目的

  • 単一のエンドツーエンドモデルがストリーミングと非ストリーミングの両方の ASR タスクを扱えるように動機づける。
  • Transformer 層における可変右文脈を可能にする訓練手法を開発する。
  • 効率的な並列低遅延・高遅延デコーディングのための Y-model アーキテクチャを導入する。
  • ストリーミングと非ストリーミング展開の推論最適化を提供する。
  • 遅延と精度のトレードオフを評価し、全体の遅延を抑える制約付きアライメントを検討する。

提案手法

  • Transformer 層とラベルエンコーダを備えた音声エンコーダを用い、RNN-T 損失で共同訓練する Transformer Transducer を提案する。
  • 各層ごとに右側の文脈長をサンプルして可変右文脈訓練を導入し、推論の柔軟性を実現する。
  • 前提層を可変の文脈で訓練する Y-model アーキテクチャを提示し、低遅延・高遅延の並列デコードを可能にする。
  • リファレンスの全注意機構モデルに基づき、RNN-T 損失の高遅延アライメント経路をマスクする制約付きアライメント訓練を適用する。
  • 推論の最適化として、ストリーミング vs 非ストリーミングのエンコーダ実装と速度を上げるためのラベルエンコーダのキャッシングを議論する。
  • 限定的な右文脈先読み(例: 2.4 秒)を用いてデコード構成を評価し、遅延と精度を最適化する。

実験結果

リサーチクエスチョン

  • RQ1単一のエンドツーエンドの Transformer ベースモデルは、別個のモデルを用いずにストリーミング(低遅延)と非ストリーミング(高精度)の両方の ASR モードをサポートできるか?
  • RQ2可変右文脈訓練は再訓練を最小限に抑えつつ低遅延デコードと高遅延デコードのモード間の効果的な切り替えを可能にするか?
  • RQ3ストリーミング対全右文脈の最終結果における遅延-精度トレードオフはどうなるか?
  • RQ4制約付きアライメント訓練は全体の WER を損なうことなく語のアラインメント遅延を減少させるか?
  • RQ5Transformer Transducer の推論最適化でストリーミングと非ストリーミングのデコードを最も効果的に高速化できるのはどの方法か?

主な発見

  • 単一の Transformer Transducer モデルが低遅延のストリーミングと高精度の非ストリーミングの両方のデコードモードをサポートできる。
  • Y-model アーキテクチャは異なる右文脈の先読みを伴う並列デコードを可能にし、限られた先読み(2.4 秒)でほぼ全コンテキスト精度を達成する。
  • 限定的な右文脈(2.4s)でも無制限のコンテキスト精度に近づきつつ、デコード終了時の遅延を小さく保てる。
  • 制約付きアライメント訓練は語のアラインメント遅延を大幅に低減する(例: Y-model2 低遅延構成で約767 msから約119 msへ)、モードによってWERへの影響は混在。
  • ラベルエンコーダ設計(小さな文脈のトランスフォーマーまたはビグラム埋め込み)とキャッシングは、WERへの影響を最小限に抑えつつデコードを大幅に高速化する。
  • 推論最適化(バッチステップ、クエリスライシング、ストリーミング対非ストリーミングのエンコーディング)により、TPUとCPUで大幅な速度向上を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。