[论文解读] Domain Robustness in Neural Machine Translation
本文分析 SMT 与 NMT 在领域鲁棒性上的差异,指出 NMT 更流畅但在未见领域常常不充分,原因是幻觉现象;并评估了提高鲁棒性的方法,取得中等提升并为未来工作提供基线。
Translating text that diverges from the training domain is a key challenge for machine translation. Domain robustness---the generalization of models to unseen test domains---is low for both statistical (SMT) and neural machine translation (NMT). In this paper, we study the performance of SMT and NMT models on out-of-domain test sets. We find that in unknown domains, SMT and NMT suffer from very different problems: SMT systems are mostly adequate but not fluent, while NMT systems are mostly fluent, but not adequate. For NMT, we identify such hallucinations (translations that are fluent but unrelated to the source) as a key reason for low domain robustness. To mitigate this problem, we empirically compare methods that are reported to improve adequacy or in-domain robustness in terms of their effectiveness at improving domain robustness. In experiments on German to English OPUS data, and German to Romansh (a low-resource setting) we find that several methods improve domain robustness. While those methods do lead to higher BLEU scores overall, they only slightly increase the adequacy of translations compared to SMT.
研究动机与目标
- 评估 SMT 与 NMT 在域外测试集上的表现。
- 描述域外翻译中的错误性质(流畅性 vs 充分性)。
- 评估旨在提升域鲁棒性的方法(充足性、鲁棒性或域外翻译)。
- 提供数据集和代码,作为未来领域鲁棒性研究的基线。
提出的方法
- 在 German→English 和 German→Romansh 上,使用来自 OPUS/其他语料库的多个领域,对基线 SMT 和 NMT 系统进行比较。
- 通过自动分析(BLEU、OOV 率)和人工分析(充足性与流畅性)来表征领域鲁棒性。
- 评估若干提升鲁棒性的技术:子词正则化、对称蒸馏、重构、神经噪声通道重排序,以及它们的组合。
- 在域内和域外数据上对这些方法进行调优与测试,以评估跨域收益。
实验结果
研究问题
- RQ1在翻译域外文本时,SMT 与 NMT 的退化表现有何差异(流畅性 vs 充足性)?
- RQ2旨在提高充足性或域内鲁棒性的技术是否也能在未见域上提升域鲁棒性?
- RQ3哪些方法最有效地减少幻觉并提升跨域翻译质量?
- RQ4BLEU 的提升是否在各域间对应地转化为充足性的提升?
- RQ5在组合鲁棒性技术时,是否存在域和数据条件相关的效应?
主要发现
- NMT 在域外翻译中流畅但常常不充分,而 SMT 更充足但流畅性较差。
- 幻觉现象(内容相关性缺失的流畅性)是 NMT 在域外数据中的一个关键问题;SMT 的幻觉较少。
- 重构和噪声通道重排序在跨域上带来稳健收益并减少幻觉,特别是重构降低了不充分的翻译。
- 子词正则化在低资源的域内以及某些域外设置中有所提升,但并未在跨域的充足性或 BLEU 上持续提升。
- 将重构与噪声通道重排序结合起来,在所测试的领域和数据条件下提供最一致的跨域 BLEU 提升。
- 总体而言,NMT 的领域鲁棒性仍然具有挑战性,BLEU 的提升并不在所有域上都转化为充足性的提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。