QUICK REVIEW
[论文解读] A Cascade Architecture for Keyword Spotting on Mobile Devices
Alexander Gruenstein, Raziel Álvarez|arXiv (Cornell University)|Dec 10, 2017
Speech Recognition and Synthesis参考文献 7被引用 33
一句话总结
本文提出一种低功耗、两级级联架构,用于移动设备上的关键词检测,采用轻量级DSP驱动的第一级实现持续监听,第二级基于应用处理器并集成说话人验证,实现更高精度。系统在保持仅3.5%误拒绝率的同时,实现每小时小于0.01次误报,支持低功耗持续关键词检测。
ABSTRACT
We present a cascade architecture for keyword spotting with speaker verification on mobile devices. By pairing a small computational footprint with specialized digital signal processing (DSP) chips, we are able to achieve low power consumption while continuously listening for a keyword.
研究动机与目标
- 在电池供电的移动设备上实现持续、低功耗的关键词检测,同时最大限度降低功耗。
- 在电视和广播噪声等真实环境噪声中降低误报率,而不增加误拒绝率。
- 在设备端集成说话人验证,防止未经授权的触发,同时保持低延迟。
- 针对内存受限、仅支持定点运算的DSP,优化神经网络模型以实现高效部署。
- 通过两级级联设计,在最小化计算资源占用的同时实现高精度的关键词检测。
提出的方法
- 系统采用两级关键词检测器的级联结构:第一级为小型、低功耗的DSP驱动模块,第二级为更大、更精确的应用处理器驱动模块。
- 第一级执行实时信号处理,包括对数梅尔滤波器组特征提取,并使用量化后的8位神经网络进行初步检测。
- 检测触发后,第一级将2秒音频缓冲区转发至第二级,由更复杂的声学编码器和解码器完成最终决策。
- 解码器通过滑动窗口(L帧)对平滑后的后验概率计算归一化乘积得分,以有序方式检测关键词序列。
- 第二级应用基于LSTM的说话人嵌入模型,通过余弦距离将实时语音与注册模板进行比对,实现说话人验证。
- 神经网络参数被量化为8位整数,以减少内存占用和计算负载,并通过平台特定的比特级一致仿真确保跨平台一致性。
实验结果
研究问题
- RQ1两级级联架构是否能在真实音频环境中实现低误报率的同时保持低误拒绝率?
- RQ2如何设计轻量级DSP驱动的第一级,使其在嘈杂环境中每小时仅触发几次?
- RQ3设备端说话人验证在多大程度上可减少误报,而不会显著增加误拒绝率?
- RQ4在仅支持定点运算、内存受限的DSP上部署高精度神经网络,需要哪些量化与优化技术?
- RQ5服务端验证的集成在多大程度上可进一步提升系统可靠性与语音识别准确率?
主要发现
- 在924小时电视背景噪声下,级联系统的误报率仅为每小时0.006次,相比仅第一级降低了5至10倍。
- 当第一级误报率为每小时10.0次时,整体系统仍保持仅3.5%的误拒绝率,接近第二级模型的性能水平。
- 通过说话人验证,系统将来自其他说话人、电视和广播的误报减少了5至10倍,且误拒绝率绝对增加不足1%。
- 第一级模型优化至13kB,满足128kB DSP内存限制,其中25kB用于代码,64kB用于音频缓冲区。
- 8位整数量化使DSP上的定点推理更加高效,同时通过平台特定仿真保持模型精度。
- 服务端验证进一步降低了误报率并提升了语音起始点检测能力,有助于降低下游语音识别的整体词错误率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。