QUICK REVIEW

[論文レビュー] Streaming End-to-end Speech Recognition For Mobile Devices

Yanzhang He, Tara N. Sainath|arXiv (Cornell University)|Nov 15, 2018

Speech Recognition and Synthesis参考文献 25被引用数 23

ひとこと要約

この論文では、量子化、ワードピeceトークナイゼーション、および合成TTS生成データを用いた数値正規化のためのトレーニングデータにより、モバイルデプロイメントを最適化したストリーミングエンドツーエンドの音声認識システムを提示する。このシステムは、Google Pixel端末上で20%以上の相対的WER改善を達成し、リアルタイムの51%の遅延で動作し、従来のCTCベースのベースラインを上回る性能を発揮する。

ABSTRACT

End-to-end (E2E) models, which directly predict output character sequences given input speech, are good candidates for on-device speech recognition. E2E models, however, present numerous challenges: In order to be truly useful, such models must decode speech utterances in a streaming fashion, in real time; they must be robust to the long tail of use cases; they must be able to leverage user-specific context (e.g., contact lists); and above all, they must be extremely accurate. In this work, we describe our efforts at building an E2E speech recognizer using a recurrent neural network transducer. In experimental evaluations, we find that the proposed approach can outperform a conventional CTC-based model in terms of both latency and accuracy in a number of evaluation categories.

研究の動機と目的

モバイルデバイス向けのオンデバイスデプロイメントに適した低遅延・高精度なエンドツーエンド音声認識器の開発。
従来のCTCベースのモデルがストリーミング、文脈的、およびロングテール発話認識において抱える制限を克服すること。
最小限の遅延でリアルタイム推論を実現しながら、モバイルハードウェア制約下でも高い精度を維持すること。
TTSを用いた合成データ増強により、数値および未知語語彙の認識を向上させること。
軽量なLSTM言語モデルを用いたシャロウフュージョンにより、ユーザー固有のコンテキスト（例：連絡先、アプリ）を統合しながらモデル効率を損なわないこと。

提案手法

システムは、生の音声特徴からの逐次的自己回帰的予測を実現するため、ストリーミングに適した再帰的ニューラルネットワークトランスダーサー（RNN-T）をコアアーキテクチャとして採用する。
ワードピeceトークナイゼーションを適用して、特にロングテールドメインにおけるレア語やOOV語のモデリングを改善する。
RNN-Tトレーニングの安定化と高速化のため、レイヤーナルムライゼーションとTPU上での大バッチトレーニングを用いる。
モデルサイズの縮小と推論速度の向上のため、非対称および対称量子化を適用し、4倍の圧縮とリアルタイム要因の64%の低減を達成する。
ユーザー固有のコンテキスト（例：連絡先リスト）を統合するためのシャロウフュージョン機構を採用し、軽量なLSTM言語モデルを用いて仮説を再スコアリングする。
数値シーケンス用の合成TTS生成発話データを用いて事前学習することで、未学習の数値においても正規化精度を向上させる。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドのRNN-Tモデルは、モバイルハードウェア上で高精度を維持したまま、リアルタイム以上またはリアルタイムに近い推論を達成できるか？
RQ2ワードピeceトークナイゼーションは、グラフィムレベルのモデリングと比較して、WERと稀な語に対する耐性においてどのように差がでるか？
RQ3合成TTSデータによる増強は、未学習の文脈における数値シーケンスの認識をどの程度向上させ得るか？
RQ4ユーザー固有のコンテキストを用いたシャロウフュージョンは、従来のハイブリッドシステムと同等またはそれ以上の性能を達成できるか？
RQ5生産環境におけるモバイルデプロイメントにおいて、量子化が精度と推論速度に与える影響は何か？

主な発見

ワードピeceとレイヤーナルムライゼーションを適用したRNN-Tモデルは、音声検索で27%、タイピング入力で25%の相対的WER削減を達成し、ベースラインCTCモデルを上回る。
最終的な量子化済みRNN-Tモデル（対称量子化）は、RT90が0.51に達し、リアルタイムの51%の遅延で動作し、これはリアルタイムの2倍の速度である。
数値シーケンス用のTTS生成合成データの使用により、Num-TTSセットのWERは22.8%から4.3%に低下し、相対的改善率は81%に達する。
ユーザー固有のコンテキストを用いたシャロウフュージョンは、連絡先やアプリの認識で最大5.8%の相対的WER改善をもたらし、従来のCTCベースのモデルと同等またはそれを上回る。
量子化によりモデルサイズは4倍に圧縮され、非対称量子化であってもWERは0.1%の絶対的低下にとどまる。
最終的なシステムは、音声検索およびタイピング入力の両タスクで、従来のCTCベースラインと比較して20%以上の相対的WER改善を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。