Skip to main content
QUICK REVIEW

[論文レビュー] Domain Robustness in Neural Machine Translation

Mathias Müller, Annette Rios|arXiv (Cornell University)|Nov 8, 2019
Natural Language Processing Techniques参考文献 37被引用数 63
ひとこと要約

本論文は SMT と NMT におけるドメイン頑健性を分析し、NMT は流暢だが未知ドメインでしばしば不十分であることを、幻覚の発生を原因として示す。頑健性を高める手法を評価し、適度な改善を得て、将来の研究の基準となるベースラインを提供する。

ABSTRACT

Translating text that diverges from the training domain is a key challenge for machine translation. Domain robustness---the generalization of models to unseen test domains---is low for both statistical (SMT) and neural machine translation (NMT). In this paper, we study the performance of SMT and NMT models on out-of-domain test sets. We find that in unknown domains, SMT and NMT suffer from very different problems: SMT systems are mostly adequate but not fluent, while NMT systems are mostly fluent, but not adequate. For NMT, we identify such hallucinations (translations that are fluent but unrelated to the source) as a key reason for low domain robustness. To mitigate this problem, we empirically compare methods that are reported to improve adequacy or in-domain robustness in terms of their effectiveness at improving domain robustness. In experiments on German to English OPUS data, and German to Romansh (a low-resource setting) we find that several methods improve domain robustness. While those methods do lead to higher BLEU scores overall, they only slightly increase the adequacy of translations compared to SMT.

研究の動機と目的

  • SMT と NMT が Unknown domain のテストセットでどのように性能を示すかを評価する。
  • 未知ドメインの翻訳におけるエラーの性質を特徴づける(流暢さ vs 適切さ)。
  • ドメイン頑健性を向上させることを目的とした手法を評価する(適切さ、頑健性、または未知ドメイン翻訳)。
  • ドメイン頑健性に関する今後の研究の基準として、データセットとコードを提供する。

提案手法

  • OPUS/その他コーパスの複数ドメインを用いて、German→English および German→Romansh のベースライン SMT および NMT システムを比較する。
  • 自動的に(BLEU、OOV 率)および手動で(適切さと流暢さ)を分析して、ドメイン頑健性を特徴づける。
  • サブワード正則化、ディフェンシブディスティレーション、再構成、ニューラルノイズチャンネルリランキング、及びそれらの組み合わせといった、いくつかの頑健性向上手法を評価する。
  • これらの手法をインドメインおよびアウトオブドメインデータで調整・評価し、クロスドメインの改善を測る。

実験結果

リサーチクエスチョン

  • RQ1未知ドメインのテキストを翻訳する際、SMT と NMT は劣化の点でどのように異なるか(流暢さ vs 適切さ)?
  • RQ2適切さやインドメイン頑健性を改善するよう設計された手法は、未知ドメインに対するドメイン頑健性も改善できるか?
  • RQ3幻覚を最も効果的に低減し、クロスドメイン翻訳品質を改善する手法はどれか?
  • RQ4BLEU の改善が、ドメイン間での adequacy(適切さ)に対応する向上をもたらすか?
  • RQ5頑健性手法を組み合わせる際、ドメインやデータ条件依存の効果はあるか?

主な発見

  • NMT は流暢だが未知ドメイン翻訳ではしばしば不十分であり、SMT はより適切だが流暢さは劣る。
  • 幻覚(内容の関連性がない流暢さ)は、未知ドメインデータに対する NMT の重要な課題である。一方 SMT は幻覚が少ない。
  • 再構成とノイズチャンネルリランキングは、クロスドメインの頑健な改善をもたらし、幻覚を減らす。特に再構成は不適切な翻訳を減少させる。
  • サブワード正則化は低リソースのインドメインや一部のアウトオブドメイン設定で改善をもたらすが、クロスドメインの適切さやBLEUの一貫した向上にはつながらない。
  • 再構成とノイズチャンネルリランキングを組み合わせると、テストされたドメインとデータ条件全体で最も一貫したクロスドメインBLEUの改善が得られる。
  • 全体として、ドメイン頑健性は依然として NMT にとって挑戦的であり、BLEU の改善が必ずしもドメイン間の適切さ向上に結びつくわけではない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。