QUICK REVIEW

[论文解读] Streaming End-to-end Speech Recognition For Mobile Devices

Yanzhang He, Tara N. Sainath|arXiv (Cornell University)|Nov 15, 2018

Speech Recognition and Synthesis参考文献 25被引用 23

一句话总结

本文提出了一种基于 RNN-T 模型的流式端到端语音识别系统，通过量化、词片符分词和合成 TTS 生成的训练数据实现数值归一化，针对移动设备部署进行了优化。该系统在 Google Pixel 手机上实现了超过 20% 的相对 WER 改进，延迟为实时的 51%，优于传统的 CTC 基线模型。

ABSTRACT

End-to-end (E2E) models, which directly predict output character sequences given input speech, are good candidates for on-device speech recognition. E2E models, however, present numerous challenges: In order to be truly useful, such models must decode speech utterances in a streaming fashion, in real time; they must be robust to the long tail of use cases; they must be able to leverage user-specific context (e.g., contact lists); and above all, they must be extremely accurate. In this work, we describe our efforts at building an E2E speech recognizer using a recurrent neural network transducer. In experimental evaluations, we find that the proposed approach can outperform a conventional CTC-based model in terms of both latency and accuracy in a number of evaluation categories.

研究动机与目标

开发一种低延迟、高准确率的端到端语音识别器，适用于移动设备上的本地部署。
克服传统 CTC 模型在流式处理、上下文理解和长尾语音识别方面的局限性。
在保持高准确率的同时，实现在移动硬件限制下的最小延迟实时推理。
通过使用 TTS 生成的合成数据增强，提升对数值和 OOV 序列的识别能力。
通过轻量级浅层融合机制集成用户特定上下文（如联系人、应用程序），同时不损害模型效率。

提出的方法

系统采用循环神经网络转换器（RNN-T）作为核心架构，用于从原始音频特征进行流式、自回归序列预测。
应用词片符分词以改善罕见词和 OOV 词的建模，尤其在长尾领域中表现更优。
采用层归一化和在 TPU 上的大批量训练，以稳定并加速 RNN-T 的训练过程。
应用对称和非对称量化以减小模型大小并加速推理，实现 4 倍压缩和实时因子 64% 的降低。
通过轻量级 LSTM 语言模型重新评分假设，采用浅层融合机制集成用户特定上下文（如联系人列表）。
使用 TTS 生成的合成语音数据预训练数值序列，提升在未见数字上的归一化准确率。

实验结果

研究问题

RQ1端到端 RNN-T 模型是否能在移动硬件上实现实时或更快的推理，同时保持高准确率？
RQ2与音素级建模相比，词片符分词在 WER 和罕见词鲁棒性方面表现如何？
RQ3使用 TTS 生成的合成数据在未见上下文中对数值序列识别的提升程度如何？
RQ4与用户特定上下文结合的浅层融合是否能匹配或超越传统混合系统的表现？
RQ5量化对生产环境中移动部署的准确率和推理速度有何影响？

主要发现

采用词片符和层归一化的 RNN-T 模型在语音搜索任务上相比基线 CTC 模型相对减少 27% 的 WER，在语音输入任务上减少 25%。
最终量化后的 RNN-T 模型（对称量化）的 RT90 为 0.51，运行延迟为实时的 51%，即比实时快两倍。
使用 TTS 生成的合成数据进行数值序列训练，将 Num-TTS 数据集上的 WER 从 22.8% 降低至 4.3%，相对改进达 81%。
通过用户特定上下文（如联系人和应用）的浅层融合，WER 相对提升最高达 5.8%，表现匹配或超过传统 CTC 基线模型。
量化使模型大小减少 4 倍，即使采用非对称量化，WER 也仅下降 0.1% 绝对值以内。
最终系统在语音搜索和语音输入任务上相比传统 CTC 基线，WER 相对提升超过 20%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。