[论文解读] An End-to-End Architecture for Keyword Spotting and Voice Activity Detection
该论文提出一种基于连接时序分类(CTC)的单端到端深度学习架构,结合双向门控循环单元(BLSTM),无需微调即可联合执行关键词检测(KWS)和语音活动检测(VAD)。该模型在KWS任务中实现98.1%的真正例率(FPR为5%时),在VAD任务中实现99.8%的真正例率,优于强基线模型,且无需对齐训练数据或单独维护模型。
We propose a single neural network architecture for two tasks: on-line keyword spotting and voice activity detection. We develop novel inference algorithms for an end-to-end Recurrent Neural Network trained with the Connectionist Temporal Classification loss function which allow our model to achieve high accuracy on both keyword spotting and voice activity detection without retraining. In contrast to prior voice activity detection models, our architecture does not require aligned training data and uses the same parameters as the keyword spotting model. This allows us to deploy a high quality voice activity detector with no additional memory or maintenance requirements.
研究动机与目标
- 开发一种单一神经网络架构,无需微调即可同时执行关键词检测与语音活动检测。
- 消除语音活动检测中对帧对齐标签或手工设计特征的需求。
- 通过改进的CTC评分算法,实现实时在线关键词检测的低延迟推理。
- 通过训练期间添加合成噪声数据增强,提升模型在嘈杂环境中的鲁棒性。
- 通过在KWS与VAD任务间共享模型参数,降低部署与维护开销。
提出的方法
- 模型采用二维卷积层,后接三层门控循环层(BLSTM),最后通过Softmax层输出字符级概率,包含空白符与空格符。
- 使用连接时序分类(CTC)损失函数在未对齐的字符级转录本上进行端到端训练,避免强制对齐的需求。
- 针对关键词检测,采用改进的CTC评分算法,通过在关键词首尾字符周围添加通配符,降低对窗口大小的敏感性。
- 针对语音活动检测,语音概率通过在帧窗口内对空白符累积概率取反获得。
- 提出一种新颖的推理算法,通过动态追踪时间步与标签位置的前向概率,计算关键词的CTC得分。
- 模型在52.6万条转录语音、1,544个关键词样本及5.7万段噪声片段的组合数据上进行训练,关键词数据通过10次随机添加噪声片段的方式进行数据增强。
实验结果
研究问题
- RQ1能否通过单一端到端神经网络架构,利用共享参数同时实现关键词检测与语音活动检测?
- RQ2基于CTC的模型是否能在无需语音活动检测帧对齐标签的情况下,实现KWS与VAD的高精度?
- RQ3在训练中使用合成噪声进行数据增强,对模型在嘈杂环境中的鲁棒性有何影响?
- RQ4模型深度与宽度在多大程度上提升KWS与VAD任务的性能?
- RQ5能否设计出推理算法,在保证在线关键词检测高检测精度的同时维持低延迟?
主要发现
- 所提模型在关键词检测任务中实现98.1%的真正例率(FPR为5%时),优于DNN-HMM基线模型(96.2%)。
- 在语音活动检测任务中,模型在FPR为5%时达到99.8%的真正例率,显著优于WebRTC VAD基线模型(44.6%)。
- 在训练中加入合成噪声,使KWS性能从94.3%提升至98.9%的真正例率(FPR为5%时)。
- 当模型深度超过2层或宽度超过128个单元时,VAD性能趋于饱和,多数大模型在FPR为5%时实现>99.9%的真正例率。
- 采用3层256个单元、约150万个参数的模型已成功部署于现代智能手机,实现低延迟,且无额外内存或维护开销。
- 同一架构与参数被同时用于KWS与VAD,无需独立模型或微调。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。