[论文解读] Data Augmentation for Robust Keyword Spotting under Playback Interference
本文提出了一种数据增强策略,通过在不同信干比(SIR)下人工混合训练数据与音乐及电视/电影音频,显著提升了关键词识别(KWS)在播放干扰下的鲁棒性。该方法在不增加运行时复杂度的前提下,显著降低了误拒率——在AUC指标上实现了47.6%的相对降低,即使在AEC处理失效时也优于基线模型。
Accurate on-device keyword spotting (KWS) with low false accept and false reject rate is crucial to customer experience for far-field voice control of conversational agents. It is particularly challenging to maintain low false reject rate in real world conditions where there is (a) ambient noise from external sources such as TV, household appliances, or other speech that is not directed at the device (b) imperfect cancellation of the audio playback from the device, resulting in residual echo, after being processed by the Acoustic Echo Cancellation (AEC) system. In this paper, we propose a data augmentation strategy to improve keyword spotting performance under these challenging conditions. The training set audio is artificially corrupted by mixing in music and TV/movie audio, at different signal to interference ratios. Our results show that we get around 30-45% relative reduction in false reject rates, at a range of false alarm rates, under audio playback from such devices.
研究动机与目标
- 在真实世界播放干扰条件下,尤其是回声消除(AEC)后残留回声的情况下,提升关键词识别(KWS)性能。
- 解决用户在远场环境中中断音频播放(如音乐、TTS)时,维持低误拒率(FRR)的挑战。
- 开发一种抗噪KWS系统,无需额外运行时计算或内存开销,适用于设备端部署。
- 评估使用音乐和电影音频进行数据增强是否能提升对真实世界播放条件的泛化能力,包括AEC失效的情况。
提出的方法
- 通过在不同信干比(SIR)下,将语音样本与随机截取并加入混响的音乐和电影/音频片段进行人工混合,以污染训练数据。
- 使用均匀分布采样SIR值,覆盖两个范围:[0, 40] dB 和 [-20, 40] dB,选择前者以在播放与非播放条件下实现性能平衡。
- 在增强后的数据上训练基于深度神经网络(DNN)的声学模型,并使用基于HMM的解码方法实现实时设备端关键词检测。
- 通过DET曲线和AUC作为评估指标,对比在含播放和不含播放的测试集上的模型性能。
- 通过在未经处理的音频上测试,评估AEC失效情况下的鲁棒性,以模拟AEC无效的真实世界条件。
- 使用fMMLR及其他标准特征自适应技术作为基线比较,以验证所提增强方法的有效性。
实验结果
研究问题
- RQ1使用音乐和电影音频进行数据增强是否能提升KWS在播放干扰下的鲁棒性?
- RQ2在更宽泛的SIR范围(如[-20, 40] dB)下进行训练,是否会在播放测试集上提升性能,同时导致在干净数据上性能下降?
- RQ3当AEC处理失效或缺失时,所提出的增强策略是否依然有效?
- RQ4污染源选择(音乐 vs. 电影音频)如何影响性能提升?
- RQ5该增强策略是否可有效应用于端到端原始音频KWS模型,且不增加推理复杂度?
主要发现
- 使用音乐音频进行数据增强后,与干净基线模型相比,播放测试集上的AUC相对降低了47.6%。
- 使用电影音频进行污染处理后,AUC相对降低了40.0%,表明效果一致但略低于基于音乐的增强。
- 选择[0, 40] dB的SIR范围而非[-20, 40] dB,是因为其在播放与非播放性能之间实现了更好的权衡,避免了在干净数据上出现显著性能下降。
- 该方法在真实使用场景下改善了误拒率,包括AEC失效或缺失的情况,证明了对残留播放干扰的鲁棒性。
- 性能提升在不同误报率(FAR)工作点上保持一致,表明在不同检测阈值下均具备良好泛化能力。
- 该方法保持了较低的运行时复杂度,在推理阶段未增加任何额外内存或CPU开销,因此适用于设备端部署。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。