[论文解读] Invariant Representations for Noisy Speech Recognition
本文提出了一种深度神经网络架构,通过对抗性训练使域分类器无法区分干净语音与含噪语音,同时主声学模型保持较高的分类准确率,从而学习到对噪声不敏感的语音表征。该方法显著提升了对未见过的噪声类型的泛化能力,尤其在训练时仅接触少量噪声类别的情况下,优于Aurora-4基准上的标准多条件训练方法。
Modern automatic speech recognition (ASR) systems need to be robust under acoustic variability arising from environmental, speaker, channel, and recording conditions. Ensuring such robustness to variability is a challenge in modern day neural network-based ASR systems, especially when all types of variability are not seen during training. We attempt to address this problem by encouraging the neural network acoustic model to learn invariant feature representations. We use ideas from recent research on image generation using Generative Adversarial Networks and domain adaptation ideas extending adversarial gradient-based training. A recent work from Ganin et al. proposes to use adversarial training for image domain adaptation by using an intermediate representation from the main target classification network to deteriorate the domain classifier performance through a separate neural network. Our work focuses on investigating neural architectures which produce representations invariant to noise conditions for ASR. We evaluate the proposed architecture on the Aurora-4 task, a popular benchmark for noise robust ASR. We show that our method generalizes better than the standard multi-condition training especially when only a few noise categories are seen during training.
研究动机与目标
- 提升自动语音识别(ASR)在未见声学条件(如噪声、说话人和信道变化)下的鲁棒性。
- 解决神经网络语音识别中泛化到训练期间未出现的新噪声类型这一常见挑战。
- 开发一种无需依赖显式噪声鲁棒特征或大量数据增强技术即可学习不变表征的方法。
- 借鉴生成对抗网络(GANs)的思想,将领域自适应技术应用于语音识别。
- 在Aurora-4标准基准上评估该方法在不同训练阶段可见噪声类型数量下的有效性。
提出的方法
- 使用一个6层深度神经网络(DNN)作为主声学模型,并在第4层增加一个分支,用于预测输入语音是干净还是含噪。
- 训练一个领域分类器网络,利用第4层的隐藏表征来区分干净语音与含噪语音。
- 训练目标结合了三项损失项:声学分类损失、领域分类损失以及一个梯度反转项,以促进领域不变性。
- 在编码器的梯度中应用梯度反转层(来自Ganin & Lempitsky, 2014),使表征对领域分类器的判别能力降低。
- 使用带动量的随机梯度下降和学习率衰减进行训练,小批量样本中干净帧与含噪帧保持平衡。
- 该方法无需逐层预训练,且在Aurora-4数据集上评估了不同训练阶段可见噪声类型数量下的性能。
实验结果
研究问题
- RQ1对抗性训练以实现领域不变性是否能提升ASR对未见噪声类型的泛化能力?
- RQ2当训练数据中仅包含部分噪声类型时,该方法与标准多条件训练相比表现如何?
- RQ3学习噪声不变表征是否能提升在未见麦克风和噪声条件下的性能?
- RQ4为何在语音识别任务中,领域分类器相比图像识别任务更容易出现欠拟合?
- RQ5基于梯度反转的领域自适应能否在仅做最小架构修改的前提下有效应用于端到端ASR?
主要发现
- 当训练时看到全部六种噪声类型时,所提出的不变性训练方法在Aurora-4测试集上达到12.62%的WER,略优于基线模型(12.60% WER)。
- 当仅看到一种噪声类型时,不变性模型在未见噪声类型上的WER为16.36%,而基线模型为22.47%,表现出6.11%的绝对性能提升。
- 当训练时看到五种噪声类型时,不变性模型在未见噪声上的WER为13.41%,而基线模型为19.33%,显示出显著的泛化优势。
- 该方法在未见噪声条件下的表现始终优于多条件训练,尤其在训练数据仅包含少数噪声类型时优势更明显。
- 即使使用预训练模型,不变性训练方法仍保持其优势,在使用全部噪声类型时达到11.85% WER(基线为11.99%),证实了其对初始化的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。