[论文解读] Breaking the Data Barrier: Towards Robust Speech Translation via Adversarial Stability Training
本文提出对抗性稳定性训练,以提升神经机器翻译模型在应对语音识别错误时的鲁棒性。通过在编码器上联合应用对抗性学习,在解码器上应用数据增强,该方法缩小了干净输入与噪声ASR输出之间的性能差距,在噪声输入上实现了最高2.83的BLEU提升,同时在干净文本上保持了接近基线的性能。
In a pipeline speech translation system, automatic speech recognition (ASR) system will transmit errors in recognition to the downstream machine translation (MT) system. A standard machine translation system is usually trained on parallel corpus composed of clean text and will perform poorly on text with recognition noise, a gap well known in speech translation community. In this paper, we propose a training architecture which aims at making a neural machine translation model more robust against speech recognition errors. Our approach addresses the encoder and the decoder simultaneously using adversarial learning and data augmentation, respectively. Experimental results on IWSLT2018 speech translation task show that our approach can bridge the gap between the ASR output and the MT input, outperforms the baseline by up to 2.83 BLEU on noisy ASR output, while maintaining close performance on clean text.
研究动机与目标
- 解决神经机器翻译模型在接收自动语音识别系统生成的噪声文本时性能下降的问题。
- 弥合端到端语音翻译流水线中干净文本输入与噪声ASR输出之间的差距。
- 在不牺牲高质量输入数据性能的前提下提升模型的鲁棒性。
- 开发一种训练框架,同时增强编码器的抗扰动能力和解码器对噪声输入的适应能力。
提出的方法
- 在编码器上应用对抗性训练,以提升其对典型ASR错误扰动的鲁棒性。
- 在解码器训练过程中应用数据增强,以模拟多样的噪声输入模式。
- 通过对抗性稳定目标联合优化编码器和解码器。
- 通过在对抗性数据和增强数据之外保留标准训练信号,确保模型在干净文本上的性能不受影响。
- 利用基于梯度的对抗性样本,在模型优化过程中模拟真实的ASR错误。
实验结果
研究问题
- RQ1对抗性训练能否提升神经机器翻译模型对自动语音识别生成噪声输入的鲁棒性?
- RQ2对编码器进行对抗性训练并与对解码器进行数据增强联合应用,对噪声ASR输出的性能有何影响?
- RQ3在提升对识别错误鲁棒性的同时,模型在干净文本上的性能能维持到何种程度?
- RQ4所提出的方法是否能有效弥合干净输入与噪声语音翻译输入之间的性能差距?
主要发现
- 与基线相比,所提方法在噪声ASR输出上的翻译性能最高提升了2.83 BLEU点。
- 模型在干净文本上的性能接近基线,表明在高质量输入上未出现显著性能下降。
- 对抗性训练与数据增强的联合使用有效缩小了干净输入与噪声输入之间的性能差距。
- 该方法在ASR输出的不同噪声水平下均表现出一致的性能提升,证实了对多样化识别错误的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。