Skip to main content
QUICK REVIEW

[論文レビュー] Achieving Human Parity on Automatic Chinese to English News Translation

Hany Hassan, Anthony Aue|arXiv (Cornell University)|Mar 15, 2018
Natural Language Processing Techniques参考文献 17被引用数 578
ひとこと要約

本論文は翻訳における人間パリティを定義し、中国語→英語のニューラルMTシステムを双学習、デリベレーション・ネットワーク、およびアグリーメント正則化とともに構築し、WMT17のニュースデータで専門的な人間翻訳とパリティを示す。

ABSTRACT

Machine translation has made rapid advances in recent years. Millions of people are using it today in online translation systems and mobile applications in order to communicate across language barriers. The question naturally arises whether such systems can approach or achieve parity with human translations. In this paper, we first address the problem of how to define and accurately measure human parity in translation. We then describe Microsoft's machine translation system and measure the quality of its translations on the widely used WMT 2017 news translation task from Chinese to English. We find that our latest neural machine translation system has reached a new state-of-the-art, and that the translation quality is at human parity when compared to professional human translations. We also find that it significantly exceeds the quality of crowd-sourced non-professional translations.

研究の動機と目的

  • ニュース領域における機械翻訳での人間パリティを定義し、測定する。
  • 中国語→英語のニューラル機械翻訳システムを開発し、人間の翻訳と同等のパリティに到達させる。
  • 翻訳品質を向上させるために、デュアル学習、共同訓練、データフィルタリングを活用する。

提案手法

  • 参照バイアスを避けるため、人間評価にはソースベースの直接評価を採用する。
  • Zh→En翻訳の基盤アーキテクチャとしてTransformerベースのNMTを用いる。
  • 監督データと非監督データの両方を活用するため、source→targetとtarget→sourceモデルの双方を活用するデュアル学習を実装する。
  • 双方向のモノリンガルデータを活用するため、バック翻訳と半教師あり目的を組み合わせた共同訓練を適用する。
  • 露出バイアスを緩和する2つのアプローチを組み込む:Deliberation Networks(2パスデコーディング)と左-to-右と右-to-leftモデル間のアグリーメント正則化。
  • 学習データの品質を高めるためのデータ選択とフィルタリングを実施する。
  • 複数モデルの相補的な強みを活かすシステム結合を実証する。

実験結果

リサーチクエスチョン

  • RQ1翻訳における人間パリティの原理的定義は何か、統計的にどのように測定できるか?
  • RQ2中国語→英語のMTシステムはニュース領域データで専門的な人間翻訳とパリティに到達できるか?
  • RQ3デュアル学習、共同訓練、および双方向データ活用は翻訳品質にどれだけ寄与するか?
  • RQ42パスデコーディングと方向横断のアグリーメントは生成品質を改善し、露出バイアスを低減するか?
  • RQ5データ品質とシステム結合が人間パリティに近づくことにどう影響するか?

主な発見

  • 最新のニューラルMTシステムは中国語→英語のニュース翻訳で最新の品質を達成している。
  • 評価されたテストセットにおけるシステムの品質は専門的な人間翻訳と統計的に区別できない。
  • このアプローチはクラウドソースの非専門翻訳を大幅に上回っている。
  • デュアル学習と共同訓練はモノリンガルデータとバイリンガルデータを効果的に活用する。
  • Deliberation networksとアグリーメント正則化は露出バイアスを緩和し、翻訳品質を向上させる。
  • システム結合は補完的なモデルの強みを活かしてさらなる向上をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。