Skip to main content
QUICK REVIEW

[論文レビュー] Lost in Translation: Loss and Decay of Linguistic Richness in Machine Translation

Eva Vanmassenhove, Dimitar Shterionov|arXiv (Cornell University)|Jun 28, 2019
Natural Language Processing Techniques参考文献 25被引用数 48
ひとこと要約

この論文は、EN–FRおよびEN–ESにおけるMTとHTの語彙的豊かさ損失を実証的に定量化し、MTが頻繁な語を好み、多様性を低下させ、アルゴリズム的バイアスの可能性を示す。

ABSTRACT

This work presents an empirical approach to quantifying the loss of lexical richness in Machine Translation (MT) systems compared to Human Translation (HT). Our experiments show how current MT systems indeed fail to render the lexical diversity of human generated or translated text. The inability of MT systems to generate diverse outputs and its tendency to exacerbate already frequent patterns while ignoring less frequent ones, might be the underlying cause for, among others, the currently heavily debated issues related to gender biased output. Can we indeed, aside from biased data, talk about an algorithm that exacerbates seen biases?

研究の動機と目的

  • 神経MTと統計的MTシステムが人間の翻訳と比較して語彙的豊かさを保持しているかを評価する。
  • MTアーキテクチャ(RNN、Transformer、SMT)が語の頻度と多様性にどのように影響するかを定量化する。
  • 訓練データのバイアス、バックトランスレーションと出力の多様性との関係を調査する。
  • 語彙の損失による性別バイアスや形態的に豊かな言語への影響を探る。

提案手法

  • Europarlデータを用いてEN–FRおよびEN–ESで3種類のMTアーキテクチャ(RNN、Transformer、SMT)を訓練・評価する。
  • 元データとバックトランスレーションデータを用いてFF、BACK、REVシステムを作成し、横断分析を行う。
  • 4つの指標(TTR、Yule’s I、MTLD、派生した1000倍スケール形)で語彙の多様性を測定する。
  • HTに対する単語の頻度変化カテゴリに分類して語彙頻度バイアスを分析する。
  • 訓練データ視点(seen)と未知データ(unseen)を比較して、アルゴリズム効果とデータ効果を分離する。

実験結果

リサーチクエスチョン

  • RQ1神経MT(NMT)とSMTは人間の翻訳と比較して語彙多様性を保持する点で差があるか。
  • RQ2MTシステムは出力をより頻繁な語へ偏らせ、 rarerな語を犠牲にしているか。
  • RQ3バックトランスレーション/ backingデータは語彙的豊かさとバイアスの伝播にどのように影響するか。
  • RQ4見たデータと見ていないデータの両方で、EN–FRおよびEN–ESの言語ペアにおいて、観察された効果は一貫しているか。

主な発見

  • MTシステムは、両言語ペアにおいてHTと比較して一般的に語彙的多様性を過小評価する。
  • SMTは神経的方法よりもいくつかの指標(TTR、Yule’s I)で語彙的豊かさをより多く保持する傾向があり、TransformerはMTLDでより豊かさが高い。
  • すべてのMTバリアントは頻度の高いHT語へ偏り、頻度の低い語を過度に落とす傾向があり、時にはそれらを完全に排除することもある。
  • バックトランスレーションは語彙のサイズを減少させ、バイアスを増幅したり学習された語の関連付けを変えたりする可能性がある。
  • seen対unseenデータでは語彙豊かさの損失に類似した傾向を示すが、未見データで効果がやや強くなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。