Skip to main content
QUICK REVIEW

[論文レビュー] Dual-mode ASR: Unify and Improve Streaming ASR with Full-context Modeling

Jiahui Yu, Wei Han|arXiv (Cornell University)|Oct 12, 2020
Speech Recognition and Synthesis参考文献 62被引用数 24
ひとこと要約

本稿では、同一の重みを共有する1つのモデルを用いてストリーミングおよびフルコンテキスト音声認識を統合的に学習する統一型エンドツーエンドフレームワーク、Dual-mode ASRを提案する。フルコンテキストモードからストリーミング推論へのインプレイス知識蒸留を併用して共同学習することで、LibriSpeechおよびMultiDomainデータセットにおいて、遅延低減と精度向上を実現した最先端の結果を達成した。

ABSTRACT

Streaming automatic speech recognition (ASR) aims to emit each hypothesized word as quickly and accurately as possible, while full-context ASR waits for the completion of a full speech utterance before emitting completed hypotheses. In this work, we propose a unified framework, Dual-mode ASR, to train a single end-to-end ASR model with shared weights for both streaming and full-context speech recognition. We show that the latency and accuracy of streaming ASR significantly benefit from weight sharing and joint training of full-context ASR, especially with inplace knowledge distillation during the training. The Dual-mode ASR framework can be applied to recent state-of-the-art convolution-based and transformer-based ASR networks. We present extensive experiments with two state-of-the-art ASR networks, ContextNet and Conformer, on two datasets, a widely used public dataset LibriSpeech and a large-scale dataset MultiDomain. Experiments and ablation studies demonstrate that Dual-mode ASR not only simplifies the workflow of training and deploying streaming and full-context ASR models, but also significantly improves both emission latency and recognition accuracy of streaming ASR. With Dual-mode ASR, we achieve new state-of-the-art streaming ASR results on both LibriSpeech and MultiDomain in terms of accuracy and latency.

研究の動機と目的

  • ストリーミングおよびフルコンテキストASRを1つのモデルに統合し、パラメータを共有することで、導入の簡素化とモデルサイズの低減を図ること。
  • 両モードを同時に最適化することで、トレーニング段階でフルコンテキストモデリングの利点を活用し、ストリーミングASRの性能を向上させること。
  • 追加のパラメータを追加せずに、フルコンテキストモードからのインプレイス知識蒸留を用いて、ストリーミングASRの遅延と精度を向上させること。
  • 複数のアーキテクチャ(ContextNet、Conformer)および複数のデータセット(LibriSpeech、MultiDomain)におけるフレームワークの有効性を示すこと。

提案手法

  • 同一の重みを用いて、ストリーミング(自己回帰的で未来のコンテキストなし)およびフルコンテキスト(双方向的で入力全体のコンテキストを有する)推論をサポートするDual-modeエンコーダーを提案する。
  • モードに応じて動作を切り替える因果的畳み込み、プーリング、自己注意メカニズムを備えたデュアルモード層を設計する。
  • 同じモデル内でストリーミングおよびフルコンテキストモードの両方を共同で学習し、勾配とパラメータを共有する。
  • インプレイス知識蒸留を導入し、フルコンテキストモードを教師として、ストリーミングモードのトークン確率予測の一貫性を強制することで、トレーニング段階で指導する。
  • 標準的なトレーニングレシピを採用:Adam最適化法、SpecAugment、および両モデルに共通のトランスフォーマー学習率スケジュール(ウォームアップ付き)。
  • 両モードに同一のトレーニング目的関数とデコード戦略を適用し、エンドツーエンドの整合性と性能の一貫性を確保する。

実験結果

リサーチクエスチョン

  • RQ1同一のエンドツーエンドASRモデルが、共有重みを用いてストリーミングおよびフルコンテキスト推論を効果的に実行できるか?
  • RQ2フルコンテキストモデリングを併用した共同学習が、ストリーミングASRの遅延と精度を向上させるか?
  • RQ3フルコンテキストモードからストリーミングモードへのインプレイス知識蒸留は、ストリーミング性能の向上にどの程度有効か?
  • RQ4重み共有と共同学習は、ストリーミングASRにおける表現学習にどのような影響を与えるか?

主な発見

  • Dual-mode ASRは、LibriSpeech TestOtherでストリーミングWERが8.5%に達し、LSTMベースのトランスダーサーやTransformer-Transducerを上回る結果を示した。
  • インプレイス蒸留を適用した場合、遅延@50は120msから40msに、遅延@90は310msから160msに低減された。これは、蒸留なしの共同学習と比較した結果である。
  • 蒸留を併用した共同学習は、蒸留なしの学習と比較して、ストリーミングWERを1.7ポイント改善し、50百分位での遅延を80ms低減した。
  • 蒸留なしでも、重み共有と共同学習は別々に学習した場合よりもストリーミングASRの性能を向上させた。これは、共有表現学習がモデル品質を向上させることを示している。
  • アブレーションスタディの結果、インプレイス知識蒸留が低遅延かつ高精度を達成するために不可欠であることが確認され、別々に学習した場合の蒸留よりも優れた性能を示した。
  • 本フレームワークは、精度と遅延の両面で、LibriSpeechおよびMultiDomainデータセットにおいて、新たな最先端の結果を達成した。アーキテクチャおよびデータセットの多様性にわたる一般化能力を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。