Skip to main content
QUICK REVIEW

[論文レビュー] Post-editese: an Exacerbated Translationese

Antonio Toral|arXiv (Cornell University)|Jul 1, 2019
Natural Language Processing Techniques参考文献 19被引用数 37
ひとこと要約

本論文はデータセット横断でポストエディット済み機械翻訳(PE)と人間翻訳(HT)を計算機的に比較し、ポストエディタイズ(post-editese)を特定する。PEはHTよりも単純で、より標準化され、より多くの元言語干渉を受けることを示す。さらにMTパラダイムとPE特性への影響を分析する。

ABSTRACT

Post-editing (PE) machine translation (MT) is widely used for dissemination because it leads to higher productivity than human translation from scratch (HT). In addition, PE translations are found to be of equal or better quality than HTs. However, most such studies measure quality solely as the number of errors. We conduct a set of computational analyses in which we compare PE against HT on three different datasets that cover five translation directions with measures that address different translation universals and laws of translation: simplification, normalisation and interference. We find out that PEs are simpler and more normalised and have a higher degree of interference from the source language than HTs.

研究の動機と目的

  • ポストエディット翻訳が人間翻訳と異なる特徴を示すか(post-editeseの存在)を調査する。
  • PEとHTを区別する主な言語的特徴(簡略化、標準化、干渉)を特定する。
  • post-editeseが異なるMTパラダイム(ルールベース、SMT、ニューラル)で変化するかを検討する。
  • 単一の言語ペアを超えて一般化するため、跨データセット・多言語の分析を提供する。

提案手法

  • 翻訳普遍性に沿った計算分析を実施する:簡略化、標準化、干渉。
  • Taraxü、IWSLT、MS の3データセットを用い、5つの翻訳方向と複数のPE/MT条件で分析する。
  • 語彙多様性を type-token ratio (TTR) によって測定する。
  • UDPipe の品詞タグ付けを用いて内容語比で語彙密度を評価する。
  • ソース文とターゲット文の長さ比を計算する。
  • PoS列のシーケンス干渉を、ターゲット言語のPoSモデルをソース言語およびターゲット言語のPoSモデルと比較することで分析する。

実験結果

リサーチクエスチョン

  • RQ1RQ1: post-editeseは存在するのか、すなわちPE翻訳はHTと異なる特徴を示すのか?
  • RQ2RQ2: もしそうなら、PEとHTを差別化する主な特徴は何か?
  • RQ3RQ3: 異なるMTパラダイム(ルールベース、SMT、ニューラル)でPEが作成される場合、異なるpost-editesesは存在するのか?

主な発見

  • PE翻訳はHTより語彙多様性(TTR)が低く、MTはPEよりさらに低く、段階的な簡略化を示している。
  • 語彙密度はPEとMTの両方でHTより低く、PEとMTの間に一貫した体系的差は見られない。
  • 長さの差はPEとMTがソース文の長さにHTより近いことを示し、干渉と標準化の効果を示唆している。
  • PEのPoS列はHTよりソース言語のPoS列に更に近く、より大きなソース言語干渉を示す。MTが最も強い干渉を示し、PEはHTとMTの間。
  • ニューラル MTはSMTとRBMTと比べてPoS列干渉を減らす一方、SMTはPE/MTでしばしば語彙多様性を高くする。
  • データセットを通じて、PEの結果は一貫してMTとHTの間に位置し、ポストエディット語がMTのプライミングに根ざす翻訳語の悪化形であることを示唆する。
  • 本研究は再現とさらなる分析のための公開コードとデータを提供する。
  • 結果は、広範なPE使用が目的言語の規範に及ぶ潜在的な長期的影響を浮き彫りにし、MTシステムの足跡に対処する方策を提案する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。