Skip to main content
QUICK REVIEW

[论文解读] Domain-Incremental Continual Learning for Robust and Efficient Keyword Spotting in Resource Constrained Systems

Prakash Dhungana, Sayed Ahmad Salehi|arXiv (Cornell University)|Jan 22, 2026
Speech Recognition and Synthesis被引用 0
一句话总结

论文提出了一种用于关键词检测的边缘设备域增量连续学习框架,该框架将双输入 MFCC+LogMel CNN 与小波与谱去噪、 rehearsal 缓冲区,以及基于原型的有效样本选择相结合,在资源受限设备上保持对噪声的鲁棒性。

ABSTRACT

Keyword Spotting (KWS) systems with small footprint models deployed on edge devices face significant accuracy and robustness challenges due to domain shifts caused by varying noise and recording conditions. To address this, we propose a comprehensive framework for continual learning designed to adapt to new domains while maintaining computational efficiency. The proposed pipeline integrates a dual-input Convolutional Neural Network, utilizing both Mel Frequency Cepstral Coefficients (MFCC) and Mel-spectrogram features, supported by a multi-stage denoising process, involving discrete wavelet transform and spectral subtraction techniques, plus model and prototype update blocks. Unlike prior methods that restrict updates to specific layers, our approach updates the complete quantized model, made possible due to compact model architecture. A subset of input samples are selected during runtime using class prototypes and confidence-driven filtering, which are then pseudo-labeled and combined with rehearsal buffer for incremental model retraining. Experimental results on noisy test dataset demonstrate the framework's effectiveness, achieving 99.63\% accuracy on clean data and maintaining robust performance (exceeding 94\% accuracy) across diverse noisy environments, even at -10 dB Signal-to-Noise Ratio. The proposed framework work confirms that integrating efficient denoising with prototype-based continual learning enables KWS models to operate autonomously and robustly in resource-constrained, dynamic environments.

研究动机与目标

  • 在资源有限的边缘设备上解决关键词检测中的域迁移问题。
  • 开发一个在设备上实现的连续学习框架,使其在不发生灾难性遗忘的情况下适应新的噪声条件。
  • 将鲁棒特征提取(小波与谱去噪)与双特征 CNN(MFCC + LogMel)相结合。
  • 通过原型实现的有效样本选择进行高效的采样与伪标签化,以实现增量再训练。

提出的方法

  • 使用带单输入 MFCC 路径的紧凑型 CNNClassifier,或带双输入 MFCC+LogMel 路径。
  • 对原始音频帧应用 Haar 小波去噪与 VisuShrink 为基的阈值处理以降噪。
  • 对 MFCC/LogMel 特征图进行时序与频域掩蔽的谱去噪。
  • 将模型量化为 INT8,并结合 rehearsal 缓冲区与伪标签的有效样本进行连续学习。
  • 在潜在空间中维护并更新类别原型,以实现基于原型的有效样本选择。
  • 使用到原型的 MAE 距离来判定有效样本并在设备上以小批量触发再训练。

实验结果

研究问题

  • RQ1如何利用设备端的持续学习在不从零开始重新训练的情况下使 KWS 模型适应未见噪声域?
  • RQ2将双特征输入(MFCC 与 LogMel)与去噪结合是否能在不同信噪比下提升鲁棒性?
  • RQ3基于原型的有效样本选择加上 rehearsal 缓冲区在更新整个量化模型时能否维持精度?
  • RQ4在资源受限的硬件上,通过域增量式 CL 可以实现哪些性能提升?

主要发现

ModelTest Accuracy
Single Input (MFCC)97.45
Dual Input (MFCC + LogMel)99.63
  • 双输入 MFCC+LogMel 模型在干净数据集上实现 99.63% 的测试准确率。
  • 框架在嘈杂环境下保持鲁棒性,准确率在 -10 dB SNR 下仍超过 94%。
  • 在设备端进行带 rehearsal 缓冲区和有效样本的持续学习,在多种噪声水平(-10 到 10 dB)下仍具备竞争力的精度。
  • 与现有的设备端学习框架相比,所提出的方法在约束硬件上表现出强鲁棒性和低内存/计算开销。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。