[论文解读] Optimizing Speech Recognition For The Edge
本文提出端到端的设备端语音识别,通过剪枝、替代 RNN 拓扑(CIFG-LSTM 与 SRU)以及量化进行优化,实现更小的模型且具有竞争力的 WER。
While most deployed speech recognition systems today still run on servers, we are in the midst of a transition towards deployments on edge devices. This leap to the edge is powered by the progression from traditional speech recognition pipelines to end-to-end (E2E) neural architectures, and the parallel development of more efficient neural network topologies and optimization techniques. Thus, we are now able to create highly accurate speech recognizers that are both small and fast enough to execute on typical mobile devices. In this paper, we begin with a baseline RNN-Transducer architecture comprised of Long Short-Term Memory (LSTM) layers. We then experiment with a variety of more computationally efficient layer types, as well as apply optimization techniques like neural connection pruning and parameter quantization to construct a small, high quality, on-device speech recognizer that is an order of magnitude smaller than the baseline system without any optimizations.
研究动机与目标
- 推动语音识别从服务器迁移到边缘设备,同时保持准确性。
- 探讨三个主要优化维度——剪枝、结构变体和量化——以构建紧凑的、实现实时的设备端模型。
- 在多样数据集上评估这些技术在最先进的 RNN-T 模型上的组合效果。
提出的方法
- 开发一种自动渐进剪枝算法,在提高权重稀疏度的同时,允许被剪枝的权重可恢复。
- 在 RNN-T 框架内比较 LSTM、CIFG-LSTM 与 SRU 的单元拓扑。
- 应用两种量化方案(混合 8 位/浮点和整数量化)以实现高效的设备端推理。
- 使用 8x1 块稀疏结构来加速 CPU 推理并支持在设备上的执行。
实验结果
研究问题
- RQ1激进剪枝是否能在对边缘端语音识别造成最小精度损失的前提下,实质性地减小模型大小?
- RQ2在 RNN-T 的编码器/解码器角色中,CIFG-LSTM 和 SRU 架构是否可作为传统 LSTM 的可行替代?
- RQ3量化方法是否在实现移动 CPU 实时性能的同时保持准确性?
主要发现
| Sparsity | #Params (M) | % Baseline | VoiceSearch WER | YouTube WER | Telephony WER |
|---|---|---|---|---|---|
| 0% | 122.1 | 100% | 6.6 | 19.5 | 8.1 |
| 50% | 69.7 | 57% | 6.7 | 20.3 | 8.2 |
| 70% | 48.7 | 39.9% | 7.1 | 20.6 | 8.5 |
| 80% | 38.2 | 31.3% | 7.4 | 21.2 | 8.9 |
- 剪枝在各数据集上显著减少参数数量,同时对 WER 的影响较小(例如,50% 稀疏在 VoiceSearch/YouTube/Telephony 上分别得到 6.7/20.3/8.2 的 WER)。
- 在编码器中使用 CIFG-LSTM、解码器中使用稀疏 SRU 可以将参数减少 59%,且 WER 下降有限(7.1/18.9/8.2)。
- 量化(混合和整数)能很好地保持准确性;在 Pixel 3 小核心上,整数量化的运行时间约为浮点模型的 30%。
- 将编码器设为 50% 稀疏 CIFG、解码器设为 30% 稀疏 SRU 的模型在尺寸上优于一个小型密集 LSTM 基线,并保持具有竞争力的 WER。
- SRU 可以替代解码器中的 LSTM,但在编码器中效果较差;CIFG-LSTM 提供更有利的权衡。
- 在某些条件下,带量化的稀疏 CIFG 可以超过完全密集的小型基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。