QUICK REVIEW

[论文解读] Robust Neural Machine Translation for Clean and Noisy Speech Transcripts

Mattia Antonino Di Gangi, Robert Enyedi|arXiv (Cornell University)|Nov 2, 2019

Natural Language Processing Techniques被引用 13

一句话总结

该论文提出了一种统一的神经机器翻译（NMT）模型，通过在包含相同源语文本的干净和自动语音识别（ASR）生成（嘈杂）版本的混合并行数据上进行训练，使其能够同时处理干净和嘈杂的语音转录文本——这在语音翻译中很常见。关键结果表明，对两种数据类型进行联合适应训练，在两种输入类型上均表现出更优的性能，优于仅在干净或仅在嘈杂数据上训练的模型。

ABSTRACT

Neural machine translation models have shown to achieve high quality when trained and fed with well structured and punctuated input texts. Unfortunately, the latter condition is not met in spoken language translation, where the input is generated by an automatic speech recognition (ASR) system. In this paper, we study how to adapt a strong NMT system to make it robust to typical ASR errors. As in our application scenarios transcripts might be post-edited by human experts, we propose adaptation strategies to train a single system that can translate either clean or noisy input with no supervision on the input type. Our experimental results on a public speech translation data set show that adapting a model on a significant amount of parallel data including ASR transcripts is beneficial with test data of the same type, but produces a small degradation when translating clean text. Adapting on both clean and noisy variants of the same data leads to the best results on both input types.

研究动机与目标

解决神经机器翻译（NMT）在翻译嘈杂的ASR生成语音转录文本时性能下降的问题，相较于干净、标点正确的文本。
开发一个统一的NMT系统，使其在无需推理时输入类型监督的情况下，对干净和嘈杂输入均表现良好。
探究在并行数据的干净和嘈杂变体上进行联合训练，是否能提升模型的鲁棒性和泛化能力。
在高质量干净文本翻译性能与真实语音翻译场景中对ASR错误的鲁棒性之间实现性能平衡。

提出的方法

在包含干净参考文本和对应ASR生成（嘈杂）转录本的混合并行语料库上训练单一NMT模型。
以两种形式使用相同的源端并行数据：干净和嘈杂，以模拟现实世界中的输入变异性。
采用标准的NMT训练流程，对两种数据类型共享相同的模型架构和参数。
在训练数据中利用经过后编辑的转录本，以反映现实的人工参与语音翻译流程。
在独立的干净和嘈杂输入测试集上评估模型性能，以衡量其鲁棒性和泛化能力。
对比三种设置下的模型性能：仅在干净数据上训练、仅在嘈杂数据上训练，以及两者联合训练。

实验结果

研究问题

RQ1是否可以有效适应单一NMT模型，使其在无需显式输入类型监督的情况下，翻译干净和嘈杂的语音转录文本？
RQ2在相同数据的干净和嘈杂版本上进行联合训练，对每种输入类型的翻译质量有何影响？
RQ3在ASR转录本上进行训练是否会降低在干净测试数据上的性能，这种影响能否被缓解？
RQ4在训练数据中包含后编辑的ASR转录本对整体模型鲁棒性有何影响？

主要发现

在包含大量ASR生成（嘈杂）转录本的并行数据上进行训练，可提升模型在嘈杂测试数据上的翻译性能。
仅在干净数据上训练的模型在干净输入上表现优异，但在嘈杂输入上测试时性能明显下降。
在相同数据的干净和嘈杂变体上进行联合训练，可在两种输入类型上均实现最佳整体性能。
在混合数据上适应的模型在干净文本上保持强劲性能，同时显著提升了对ASR错误的鲁棒性。
所提出的适应策略无需在推理时进行输入类型分类，即可有效应对输入变异性。
结果表明，在训练中包含嘈杂转录本对真实世界语音翻译应用具有显著益处。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。