Skip to main content
QUICK REVIEW

[论文解读] Small-footprint Keyword Spotting Using Deep Neural Network and Connectionist Temporal Classifier

Zhiming Wang, Xiaolong Li|arXiv (Cornell University)|Sep 12, 2017
Speech Recognition and Synthesis参考文献 10被引用 23
一句话总结

本文提出一种基于深度神经网络(DNN)和连接时序分类器(CTC)的小型关键词检测(KWS)系统,以缓解关键词专用训练数据不足的问题。通过利用大规模LVCSR语料库,并采用音素级建模实现端到端训练,CTC-KWS在保持与DNN基线系统相同计算复杂度的同时,实现了与之相当的性能表现,且支持任意用户自定义的触发词。

ABSTRACT

Mainly for the sake of solving the lack of keyword-specific data, we propose one Keyword Spotting (KWS) system using Deep Neural Network (DNN) and Connectionist Temporal Classifier (CTC) on power-constrained small-footprint mobile devices, taking full advantage of general corpus from continuous speech recognition which is of great amount. DNN is to directly predict the posterior of phoneme units of any personally customized key-phrase, and CTC to produce a confidence score of the given phoneme sequence as responsive decision-making mechanism. The CTC-KWS has competitive performance in comparison with purely DNN based keyword specific KWS, but not increasing any computational complexity.

研究动机与目标

  • 解决嵌入式关键词检测系统中关键词专用训练数据不足的挑战。
  • 在无需大规模领域特定数据采集的情况下,实现灵活的用户自定义触发词支持。
  • 开发一种适用于功耗受限移动设备的低复杂度KWS系统,内存与计算资源占用极低。
  • 利用通用的LVCSR语料库进行模型预训练,降低对昂贵关键词专用数据的依赖。
  • 在保持等效计算复杂度的前提下,实现与传统DNN基线系统相当的竞争力性能。

提出的方法

  • 使用DNN将原始声学特征(40维对数滤波器组能量)映射到上下文无关(CI)音素单元的后验概率,包括用于CTC的空白符号。
  • 应用CTC作为序列级评分机制,为给定关键词的音素序列计算置信度分数,实现无需强制对齐的端到端训练。
  • 采用非对称上下文堆叠(10个过去帧,5个未来帧),在保持判别能力的同时降低延迟。
  • 对堆叠特征应用倒谱均值与方差归一化,以提升鲁棒性并减少计算负载。
  • 仅在语音活动检测(VAD)区域部署系统,以降低运行时开销。
  • 在有限的关键词专用数据上采用自适应微调,以提升性能,而无需从头开始重新训练。

实验结果

研究问题

  • RQ1当关键词专用数据稀缺时,能否有效利用大规模LVCSR语料库来训练关键词检测系统?
  • RQ2与仅使用DNN的KWS系统相比,基于CTC的KWS框架是否在保持低计算复杂度的同时实现了具有竞争力的性能?
  • RQ3CTC-KWS模型是否能泛化到任意用户自定义的触发词,而无需从头开始重新训练?
  • RQ4在不同模型尺寸和误报率下,CTC-KWS与基线DNN-KWS的性能表现如何比较?
  • RQ5在有限关键词专用数据上进行自适应微调,能在多大程度上提升系统的检测准确率?

主要发现

  • 由于数据效率更高,CTC-KWS在所有模型尺寸下均优于基线DNN-KWS,即使参数量更少。
  • 在1.5%的误报率下,CTC-KWS的性能优于基线系统,尤其在模型尺寸增大时表现更优。
  • CTC-KWS与基线DNN-KWS具有相同的计算复杂度,因为两者参数量几乎完全相同。
  • 在有限关键词专用数据上进行自适应微调可带来一致的性能提升,尤其在低误报率下效果显著。
  • CTC模型能自动学习声学特征与音素序列之间的有意义对齐,空白单元表示不确定性或静音。
  • 该系统在移动设备上实现了实时性能,ARM A8(512MB,1GHz)上的实时因子(RTF)为0.2218,MIPS(128MB,1GHz)上为0.3,内存占用范围为0.5MB至1.5MB。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。