[論文レビュー] Optimizing Speech Recognition For The Edge
この論文は剪定を用いたエッジデバイス上のエンドツーエンド音声認識を最適化し、代替RNNトポロジ(CIFG-LSTMとSRU)および量子化を用いて、はるかに小さなモデルを実現し、競争力のあるWERを達成します。
While most deployed speech recognition systems today still run on servers, we are in the midst of a transition towards deployments on edge devices. This leap to the edge is powered by the progression from traditional speech recognition pipelines to end-to-end (E2E) neural architectures, and the parallel development of more efficient neural network topologies and optimization techniques. Thus, we are now able to create highly accurate speech recognizers that are both small and fast enough to execute on typical mobile devices. In this paper, we begin with a baseline RNN-Transducer architecture comprised of Long Short-Term Memory (LSTM) layers. We then experiment with a variety of more computationally efficient layer types, as well as apply optimization techniques like neural connection pruning and parameter quantization to construct a small, high quality, on-device speech recognizer that is an order of magnitude smaller than the baseline system without any optimizations.
研究の動機と目的
- 音声認識の中心をサーバーからエッジデバイスへ移行させつつ、精度を維持する
- 剪定、アーキテクチャの変種、および量子化という3つの主要最適化軸を探求し、 compact・リアルタイムのオンデバイスモデルを構築する
- これらの技術の組み合わせを、最先端のRNN-Tモデルと多様なデータセットで評価する
提案手法
- パラメータの疎性を高めつつ剪定された重みを回復可能にする自動的な段階的剪定アルゴリズムを開発する
- RNN-Tフレームワーク内でLSTM、CIFG-LSTM、SRUセルトップロジーを比較する
- 効率的なオンデバイス推論のために2つの量子化方式(ハイブリッド8ビット/浮動小数点と整数量子化)を適用する
- CPU推論を高速化しオンデバイス実行をサポートするために8x1ブロック疎性構造を使用する
実験結果
リサーチクエスチョン
- RQ1エッジ配送された音声認識のために、積極的な剪定はモデルサイズを大幅に削減できるが精度低下は最小限に抑えられるか?
- RQ2CIFG-LSTMとSRUアーキテクチャは、RNN-Tのエンコーダ/デコーダ役割において従来のLSTMの妥替となり得るか?
- RQ3量子化手法は精度を保持しつつモバイルCPUでリアルタイム性能を提供できるか?
主な発見
| Sparsity | % Params (M) | % Baseline | VoiceSearch WER | YouTube WER | Telephony WER |
|---|---|---|---|---|---|
| 0% | 122.1 | 100% | 6.6 | 19.5 | 8.1 |
| 50% | 69.7 | 57% | 6.7 | 20.3 | 8.2 |
| 70% | 48.7 | 39.9% | 7.1 | 20.6 | 8.5 |
| 80% | 38.2 | 31.3% | 7.4 | 21.2 | 8.9 |
- 剪定はデータセット全体で modest なWER影響とともにパラメータを大幅に削減する(例:50%のスパーシティでVoiceSearch/YouTube/TelephonyのWERは6.7/20.3/8.2)。
- エンコーダのCIFG-LSTMとデコーダのスパースSRUは、WERの低下を限定的に抑えつつパラメータを59%削減できる(7.1/18.9/8.2)。
- 量子化(ハイブリッドおよび整数)は精度を良好に保持する;整数量子化はPixel 3の小コアで浮動小数点モデルのおおよそ30%の実行時間を達成。
- 50%のスパースCIFG(エンコーダ)と30%のスパースSRU(デコーダ)を組み合わせたモデルは、小さな密なLSTMのベースラインよりサイズが小さく、WERも競争力を維持。
- SRUはデコーダのLSTMの代替として機能するが、エンコーダでは効果が小さい;CIFG-LSTMは有利なトレードオフを提供。
- 量子化を伴うスパースCIFGは、特定条件下で完全密な小規模ベースラインを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。