[论文解读] Personalized Speech recognition on mobile devices
本论文提出了一种用于移动设备的紧凑型、实时语音识别系统,采用量化LSTM声学模型并结合SVD压缩技术,通过运行时语言模型偏置实现个性化。该系统在字典输入任务中实现13.5%的WER,且在Nexus 5上运行速度达到实时的7倍,总占用空间为20.3 MB,实现了无需网络依赖的高精度、低延迟本地识别。
We describe a large vocabulary speech recognition system that is accurate, has low latency, and yet has a small enough memory and computational footprint to run faster than real-time on a Nexus 5 Android smartphone. We employ a quantized Long Short-Term Memory (LSTM) acoustic model trained with connectionist temporal classification (CTC) to directly predict phoneme targets, and further reduce its memory footprint using an SVD-based compression scheme. Additionally, we minimize our memory footprint by using a single language model for both dictation and voice command domains, constructed using Bayesian interpolation. Finally, in order to properly handle device-specific information, such as proper names and other context-dependent information, we inject vocabulary items into the decoder graph and bias the language model on-the-fly. Our system achieves 13.5% word error rate on an open-ended dictation task, running with a median speed that is seven times faster than real-time.
研究动机与目标
- 开发一种低延迟、高精度的语音识别系统,完全在移动设备上运行,无需依赖云端连接。
- 减小基于深度学习的语音识别模型的内存与计算开销,以适应移动设备的资源限制。
- 实现在设备上对个性化内容(如联系人姓名与设备专用命令)的高精度识别。
- 通过贝叶斯插值构建的单一共享语言模型,同时支持开放式字典输入与语音命令任务。
- 通过模型压缩、高效解码与运行时个性化技术,最小化延迟与内存占用。
提出的方法
- 使用连接时序分类(CTC)训练量化长短期记忆(LSTM)声学模型,以预测与上下文无关的音素,从而减小模型尺寸与计算成本。
- 应用奇异值分解(SVD)进一步压缩LSTM模型,在几乎不损失准确率的情况下将模型大小减少十倍。
- 通过贝叶斯插值构建单一共享语言模型,以最小内存开销有效支持字典输入与语音命令两种场景。
- 采用运行时词汇注入与语言模型偏置技术,动态将用户特定术语(如联系人姓名)融入识别过程。
- 采用两阶段解码策略:首先使用紧凑语言模型进行快速第一轮解码,随后通过LOUDS压缩的大规模语言模型进行运行时重打分。
- 训练一个轻量级LSTM-based音素转写(G2P)模型,用于生成个性化联系人的发音,替代大型FST系统。
实验结果
研究问题
- RQ1量化并经SVD压缩的LSTM声学模型是否能在移动设备上实现高准确率,且运行速度超过实时?
- RQ2如何使单一语言模型以极低内存开销有效支持开放式字典输入与语音命令任务?
- RQ3运行时语言模型偏置与词汇注入在多大程度上能提升对联系人姓名等个性化术语的识别准确率?
- RQ4在不降低延迟的前提下,运行时注入个人联系人发音的计算与内存成本是多少?
- RQ5SVD与量化等模型压缩技术能否有效应用于RNN以支持嵌入式语音识别?与DNN-based方法相比表现如何?
主要发现
- 系统在开放式字典输入任务中实现13.5%的词错误率(WER),在类似资源约束条件下显著优于先前工作。
- 系统在Nexus 5上的中位运行速度达到实时的7倍,展现出适合交互应用的低延迟性能。
- 通过词汇注入将2个联系人加入解码器后,WER从13.7%降低至9.0%;结合运行时偏置后,联系人姓名WER进一步降至12.8%。
- 即使动态注入50个联系人发音,中位实时因子仅略微上升至0.17,表明延迟影响极小。
- 系统总占用空间为20.3 MB,其中声学模型压缩至3.0 MB,G2P模型仅497 KB,支持高效的设备内部署。
- 使用贝叶斯插值实现语言模型共享优于简单线性插值,使单一紧凑模型有效支持多领域任务。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。