Skip to main content
QUICK REVIEW

[论文解读] Multichannel End-to-end Speech Recognition

Tsubasa Ochiai, Shinji Watanabe|arXiv (Cornell University)|Mar 14, 2017
Speech and Audio Processing参考文献 31被引用 46
一句话总结

本文提出了一种多通道端到端语音识别系统,通过使用可微分神经波束成形器进行掩码估计并结合基于注意力的参考麦克风选择,联合优化语音增强与自动语音识别。该模型在仅使用含噪多通道输入和转录文本进行端到端训练、无需干净平行数据的情况下,实现了在 CHiME-4 和 AMI 基准测试上的最先进性能,优于含噪单通道和波束成形基线模型。

ABSTRACT

The field of speech recognition is in the midst of a paradigm shift: end-to-end neural networks are challenging the dominance of hidden Markov models as a core technology. Using an attention mechanism in a recurrent encoder-decoder architecture solves the dynamic time alignment problem, allowing joint end-to-end training of the acoustic and language modeling components. In this paper we extend the end-to-end framework to encompass microphone array signal processing for noise suppression and speech enhancement within the acoustic encoding network. This allows the beamforming components to be optimized jointly within the recognition architecture to improve the end-to-end speech recognition objective. Experiments on the noisy speech benchmarks (CHiME-4 and AMI) show that our multichannel end-to-end system outperformed the attention-based baseline with input from a conventional adaptive beamformer.

研究动机与目标

  • 解决现有端到端自动语音识别系统未整合语音增强的问题,特别是在噪声环境下的局限性。
  • 克服传统波束成形器作为语音识别预处理模块时因优化目标不匹配而导致的次优性能。
  • 仅使用含噪多通道输入和转录文本,实现多通道语音增强与自动语音识别的联合优化,消除对平行干净-含噪数据的需求。
  • 在不重新训练或重新配置的情况下,实现对麦克风阵列配置(通道数量和顺序)的不变性。

提出的方法

  • 将可微分神经波束成形器集成到基于注意力的编码器-解码器自动语音识别框架中,利用时频域掩码估计实现语音增强。
  • 使用掩码估计网络在时频域计算 MVDR 滤波器系数,实现在端到端训练过程中可微分的语音增强。
  • 采用注意力机制选择 MVDR 波束成形的参考麦克风,从而实现对任意麦克风阵列配置的鲁棒性。
  • 仅使用含噪多通道输入和文本转录对整个系统进行端到端训练,以词错误率(WER)作为优化目标。
  • 利用 MVDR 公式在参考麦克风处估计语音图像,实现在无需干净数据的情况下有效抑制噪声。
  • 通过使用通道无关的掩码估计和基于注意力的参考麦克风选择,确保对通道顺序和数量的不变性。

实验结果

研究问题

  • RQ1能否仅使用含噪多通道输入和转录文本,构建一个联合优化语音增强与识别的多通道端到端自动语音识别系统?
  • RQ2与作为预处理模块的传统波束成形器相比,使用基于注意力的波束成形器进行端到端训练是否能提升识别性能?
  • RQ3该系统是否能在不重新训练的情况下泛化到任意麦克风阵列配置(通道数量和顺序)?
  • RQ4缺少干净平行数据是否会影响性能,系统是否仍能仅依靠转录的含噪数据实现优异表现?

主要发现

  • 所提出的 MASK_NET (ATT) 模型在 CHiME-4 测试集上实现了 35.7% 的词错误率(WER),优于使用含噪单通道输入的注意力基线模型(51.3%)和波束成形输入基线模型(45.9%)。
  • 在 AMI 语料库上,MASK_NET (ATT) 的性能优于含噪单通道基线和波束成形基线,证实了其在多样化噪声环境下的有效性。
  • 当通道顺序改变时(例如 5_6_4_3_1 与 3_4_1_5_6),系统性能未出现下降,表明对通道排序具有鲁棒性。
  • 即使仅使用三或四个通道,该模型仍优于单通道含噪基线,表明其对通道数量减少具有强大的泛化能力。
  • 频谱图可视化结果表明,尽管仅基于自动语音识别目标进行训练,该模型仍成功抑制了噪声并恢复了谐波结构,与传统波束成形器效果相似。
  • 该系统在无需并行干净-含噪数据的情况下实现了卓越性能,仅依赖于转录的含噪多通道输入。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。