Skip to main content
QUICK REVIEW

[論文レビュー] It's Easier to Translate out of English than into it: Measuring Neural Translation Difficulty by Cross-Mutual Information

Emanuele Bugliarello, Sabrina J. Mielke|arXiv (Cornell University)|May 5, 2020
Natural Language Processing Techniques参考文献 33被引用数 9
ひとこと要約

本稿では、確率的モデルを活用することで言語およびトークン化に依存しない方法でニューラル機械翻訳の難易度を測定する情報理論的指標であるクロス相互情報量(XMI)を導入する。XMIは、英語からの翻訳が英語への翻訳よりも一般的に容易であることを示しており、ソース側のタイプ・トークン比が難易度の最も強い予測要因であることが判明し、語形に豊富な言語が inherently 困難であるという仮定に疑問を呈する。

ABSTRACT

The performance of neural machine translation systems is commonly evaluated in terms of BLEU. However, due to its reliance on target language properties and generation, the BLEU metric does not allow an assessment of which translation directions are more difficult to model. In this paper, we propose cross-mutual information (XMI): an asymmetric information-theoretic metric of machine translation difficulty that exploits the probabilistic nature of most neural machine translation models. XMI allows us to better evaluate the difficulty of translating text into the target language while controlling for the difficulty of the target-side generation component independent of the translation task. We then present the first systematic and controlled study of cross-lingual translation difficulties using modern neural translation systems. Code for replicating our experiments is available online at https://github.com/e-bug/nmt-difficulty.

研究の動機と目的

  • ニューラル機械翻訳(NMT)の難易度を評価するための、言語間で比較可能なメトリクスの不足に対処すること。
  • BLEU や類似メトリクスの限界を克服すること。これらは n-gram の重複と言語固有の性質に依存するため、異なるターゲット言語間で比較できない。
  • 翻訳の難易度をターゲット側の言語モデルの難易度から分離する方法を確立し、言語ペア間での公平な比較を可能にすること。
  • 現代のニューラルモデルを用いて、言語間のNMT難易度を体系的かつ制御された方法で初めて調査すること。

提案手法

  • 保証されたテストデータを用いて、真の分布とモデル分布の間の交差エントロピーに基づく非対称な情報理論的メトリクスであるXMIを提案。
  • 確率的ニューラル機械翻訳モデルを用いて、翻訳方向におけるモデルの不確実性を表す HqMT(T|S) と HqMT(S|T) を推定する。
  • 言語モデルのエントロピー HqLM(T) を、情報の成功した転送量 XMI(S→T) と残存不確実性 HqMT(T|S) に分解する。
  • 21のヨーロッパ言語に対してXMIを適用し、英語との間で各言語を前後方向に翻訳する40のNMTシステムを訓練して翻訳難易度を測定する。
  • ターゲット側生成難易度を制御するため、モデルとデータ構造を一定に保ちながら翻訳方向ごとのXMI値を比較する。
  • タイプ・トークン比(TTR)、語数、語の重複率といった言語的特徴とXMIとの相関分析を実施する。

実験結果

リサーチクエスチョン

  • RQ1英語からの翻訳が英語への翻訳よりも容易であるかどうか、またその程度はどのくらいか?
  • RQ2XMIによる測定において、ターゲット言語の語形的豊富さが翻訳難易度にどの程度影響を与えるか?
  • RQ3XMIによる測定において、どの言語的またはデータ関連の特徴が翻訳難易度と最も強く相関しているか?
  • RQ4同じターゲット言語への翻訳においてXMIとBLEUの相関関係はどのようになるか?また、異なるソース言語からの翻訳ではこの相関関係はどのように変化するか?
  • RQ5XMIは翻訳難易度をターゲット側言語モデルの難易度から分離できるか?これにより、言語間での公平な比較が可能になるか?

主な発見

  • 平均して、英語から他の言語への翻訳の方が英語への翻訳よりも顕著に容易であり、英語→他の言語方向のXMI値が低かった。
  • 同じターゲット言語への翻訳においてXMIはBLEUと良好に相関しており、XMIが翻訳難易度の信頼できる代理指標として使用できることを検証した。
  • 翻訳難易度とターゲット言語の語形的豊富さとの間に有意な相関は認められず、従来の仮定に疑問を呈する。
  • 翻訳難易度の唯一の統計的に有意な相関要因はソース側のタイプ・トークン比(TTR)であり、ソース言語の語彙的多様性が難易度の主な要因であることを示している。
  • XMIは翻訳難易度をターゲット側言語モデルの難易度から明確に分離でき、言語間での公平な比較を可能にした。
  • 本研究は、ある言語(例:英語)で高いBLEUスコアが得られても、それが翻訳が容易であることを意味しないことを示している。例えば、英語→フィンランド語のBLEUスコアが高くても、XMIの結果からその翻訳が容易ではないことが判明した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。