Skip to main content
QUICK REVIEW

[论文解读] Online Keyword Spotting with a Character-Level Recurrent Neural Network

Kyuyeon Hwang, Minjae Lee|arXiv (Cornell University)|Dec 30, 2015
Advanced Text Analysis Techniques参考文献 19被引用 32
一句话总结

本文提出了一种端到端、上下文感知的关键词检测系统,采用基于在线连接时序分类(CTC)训练的字符级单向RNN,实现实时、低延迟的连续语音检测。该模型无需语音转写或语言模型即可检测关键词,在单音节关键词上表现出高准确率,计算量仅为DNN-HMM基线模型的6%,并支持无需重新训练的动态关键词更新。

ABSTRACT

In this paper, we propose a context-aware keyword spotting model employing a character-level recurrent neural network (RNN) for spoken term detection in continuous speech. The RNN is end-to-end trained with connectionist temporal classification (CTC) to generate the probabilities of character and word-boundary labels. There is no need for the phonetic transcription, senone modeling, or system dictionary in training and testing. Also, keywords can easily be added and modified by editing the text based keyword list without retraining the RNN. Moreover, the unidirectional RNN processes an infinitely long input audio streams without pre-segmentation and keywords are detected with low-latency before the utterance is finished. Experimental results show that the proposed keyword spotter significantly outperforms the deep neural network (DNN) and hidden Markov model (HMM) based keyword-filler model even with less computations.

研究动机与目标

  • 解决传统基于HMM的关键词检测器缺乏上下文感知能力、在部分词匹配时易产生误报的问题。
  • 克服关键词检测系统中对语音转写、音素建模或固定词典的依赖。
  • 实现在连续音频流上无需预分割的实时、低延迟在线关键词检测。
  • 提供无需重新训练前端RNN的灵活、动态关键词更新机制。
  • 通过RNN语言建模实现上下文建模,提升短词及模糊关键词(如单音节词)的检测准确率。

提出的方法

  • 采用带有窥视连接和遗忘门的深层单向LSTM网络,实现字符级声学建模。
  • 使用在线CTC端到端训练RNN,将原始音频特征映射为字符和词边界标签。
  • 采用简单的后端解码器,从RNN的软字符级输出中计算关键词后验概率。
  • 通过在长音频流上同步进行前向和后向步骤,实现在线CTC训练,支持实时推理。
  • 引入词边界标签以过滤掉关键词作为更长单词子串时产生的误报。
  • 在解码器中使用求和转最大近似方法,降低计算成本而不影响性能。

实验结果

研究问题

  • RQ1基于在线CTC训练的字符级RNN能否在无需预分割的情况下,实现实时、低延迟、上下文感知的连续语音关键词检测?
  • RQ2引入词边界标签是否能显著减少关键词嵌入在更长单词中时的误报?
  • RQ3RNN能否端到端地学习弱语言模型和词边界,从而消除对外部词典或语言模型的依赖?
  • RQ4与传统的DNN-HMM混合模型相比,该系统在准确率和效率方面表现如何,特别是在短词或单音节词检测方面?
  • RQ5该系统在不重新训练前端RNN的前提下,能在多大程度上支持动态关键词更新?

主要发现

  • 所提出的基于CTC的关键词检测器在Set A(多音节关键词)上的F1得分为0.980,显著优于DNN-HMM基线模型(F1 = 0.936)。
  • 对于Set B(单音节关键词),该模型的F1得分为0.847,而DNN-HMM基线模型仅为0.517,表现出强大的上下文感知能力。
  • 小型CTC模型(3x128网络规模)在Set A上达到0.964的F1得分,在Set B上达到0.806,计算量仅为DNN-HMM基线模型的6%。
  • 解码器中的求和转最大近似方法未降低检测准确率,实现了高效推理。
  • 关键词检测延迟在话语结束后小于200 ms,与人类反应时间相当。
  • 系统可通过后端解码器实现无需重新训练RNN的动态关键词添加与修改,支持灵活部署。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。