Skip to main content
QUICK REVIEW

[論文レビュー] Personalized Speech recognition on mobile devices

Ian McGraw, Rohit Prabhavalkar|arXiv (Cornell University)|Mar 10, 2016
Speech Recognition and Synthesis参考文献 14被引用数 22
ひとこと要約

本稿では、SVDベースの圧縮とリアルタイムでの言語モデルバイアス化を用いた量子化LSTM音声認識モデルを用いて、モバイルデバイス向けにコンパクトでリアルタイムな音声認識システムを提示する。このシステムは、Nexus 5上で13.5%のWERを達成し、リアルタイムの7倍の速度で動作し、合計20.3 MBのメモリフットプリントを有するため、ネットワーク依存なしに正確で低レイテンシのオンデバイス認識が可能になる。

ABSTRACT

We describe a large vocabulary speech recognition system that is accurate, has low latency, and yet has a small enough memory and computational footprint to run faster than real-time on a Nexus 5 Android smartphone. We employ a quantized Long Short-Term Memory (LSTM) acoustic model trained with connectionist temporal classification (CTC) to directly predict phoneme targets, and further reduce its memory footprint using an SVD-based compression scheme. Additionally, we minimize our memory footprint by using a single language model for both dictation and voice command domains, constructed using Bayesian interpolation. Finally, in order to properly handle device-specific information, such as proper names and other context-dependent information, we inject vocabulary items into the decoder graph and bias the language model on-the-fly. Our system achieves 13.5% word error rate on an open-ended dictation task, running with a median speed that is seven times faster than real-time.

研究の動機と目的

  • クラウド接続に依存せずに、モバイルデバイス上で完全に動作する低レイテンシで高精度な音声認識システムの開発。
  • ディープラーニングベースの音声認識モデルのメモリおよび計算コストを削減し、モバイルデバイスの制約に適合させる。
  • 連絡先名やデバイス固有のコマンドなど、パーソナライズされたコンテンツの高精度なオンデバイス認識を可能にする。
  • ベイジアン補間を用いて、1つの共有言語モデルでオープンエンドドキュメンテーションと音声コマンドの両方のタスクを効果的にサポートする。
  • モデル圧縮、効率的なデコード、リアルタイムでのパーソナライゼーション技術を活用して、レイテンシとメモリ使用量を最小限に抑える。

提案手法

  • コンテキストに依存しない音素を予測するために、接続主義的時系列分類(CTC)を用いて量子化されたLSTM音声認識モデルを訓練し、モデルサイズと計算コストを低減する。
  • 特異値分解(SVD)を適用してLSTMモデルをさらに圧縮し、精度の著しい低下を伴わずにモデルサイズを10分の1に削減する。
  • ベイジアン補間を用いて1つの共有言語モデルを構築し、メモリオーバーヘッドを最小限に抑えつつ、ドキュメンテーションと音声コマンドの両ドメインを効果的にサポートする。
  • リアルタイムでの語彙インジェクションと言語モデルバイアス化を用いて、連絡先名などのユーザー固有の用語を認識プロセスに動的に統合する。
  • 2段階のデコード戦略を採用:コンパクトな言語モデルを用いた高速な1次デコーダーと、LOUDS圧縮を用いたより大きな圧縮済み言語モデルによるリアルタイムでの再スコアリング。
  • 個人用連絡先の発音を生成するための軽量なLSTMベースのグラフィム・ツー・フォノーム(G2P)モデルを訓練し、大規模なFSTベースのシステムに代わる。

実験結果

リサーチクエスチョン

  • RQ1量子化およびSVD圧縮されたLSTM音声認識モデルは、モバイルデバイス上でリアルタイムより高速に動作しながらも、高い精度を達成できるか?
  • RQ21つの言語モデルが、メモリオーバーヘッドを最小限に抑えつつ、オープンエンドドキュメンテーションと音声コマンドの両方のタスクを効果的にサポートできるか?
  • RQ3リアルタイムでの言語モデルバイアス化と語彙インジェクションは、連絡先名のようなパーソナライズされた用語の認識精度をどの程度向上できるか?
  • RQ4パーソナライズされた連絡先発音を実行時に入れ込む際の計算コストとメモリ使用量はどの程度で、レイテンシに悪影響を及えないか?
  • RQ5SVDや量子化といったモデル圧縮技術は、埋め込み型音声認識に適用可能なRNNに効果的に適用できるか?また、DNNベースのアプローチと比較してどうなるか?

主な発見

  • システムは、同様のリソース制約下で先行研究を上回る、オープンエンドドキュメンテーションタスクで13.5%の語誤り率(WER)を達成した。
  • Nexus 5上でシステムは中央値でリアルタイムの7倍の速度で動作し、インタラクティブ利用に適した低レイテンシ性能を示した。
  • 語彙インジェクションにより2つの連絡先をデコーダーに組み込むと、WERは13.7%から9.0%に低下し、リアルタイムバイアス化により連絡先名のWERはさらに12.8%まで低下した。
  • 50個の連絡先発音をリアルタイムでインジェクションしても、中央値のリアルタイム要因はわずかに0.17に増加したため、レイテンシへの影響は最小限に抑えられた。
  • システム全体のフットプリントは20.3 MBであり、音声認識モデルは3.0 MBに圧縮され、G2Pモデルはわずか497 KBにまで小さくなった。これにより、効率的なオンデバイスデプロイメントが可能になった。
  • 言語モデル共有のためのベイジアン補間は、単純な線形補間を上回る性能を示し、1つのコンパクトなモデルで効果的なマルチドメイン対応を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。