Skip to main content
QUICK REVIEW

[論文レビュー] Escaping the sentence-level paradigm in machine translation

Matt Post, Marcin Junczys-Dowmunt|arXiv (Cornell University)|Apr 25, 2023
Natural Language Processing Techniques被引用数 13
ひとこと要約

本論文は、標準的な高容量のTransformerモデルを使用した文書レベル翻訳を支持し、backtranslatedデータからの文書レベルサンプルで学習させ、文書コンテキスト性能を評価する新しい生成的評価指標を提案する。

ABSTRACT

It is well-known that document context is vital for resolving a range of translation ambiguities, and in fact the document setting is the most natural setting for nearly all translation. It is therefore unfortunate that machine translation -- both research and production -- largely remains stuck in a decades-old sentence-level translation paradigm. It is also an increasingly glaring problem in light of competitive pressure from large language models, which are natively document-based. Much work in document-context machine translation exists, but for various reasons has been unable to catch hold. This paper suggests a path out of this rut by addressing three impediments at once: what architectures should we use? where do we get document-level information for training them? and how do we know whether they are any good? In contrast to work on specialized architectures, we show that the standard Transformer architecture is sufficient, provided it has enough capacity. Next, we address the training data issue by taking document samples from back-translated data only, where the data is not only more readily available, but is also of higher quality compared to parallel document data, which may contain machine translation output. Finally, we propose generative variants of existing contrastive metrics that are better able to discriminate among document systems. Results in four large-data language pairs (DE$ ightarrow$EN, EN$ ightarrow$DE, EN$ ightarrow$FR, and EN$ ightarrow$RU) establish the success of these three pieces together in improving document-level performance.

研究の動機と目的

  • 文書コンテキストが翻訳の曖昧さを解消する上で決定的であると主張し、文レベル翻訳を超えるべきだと提案する。
  • 十分な容量を持つ標準的なTransformerが文書レベル翻訳を処理できることを示す。
  • バック翻訳データからの文書サンプルが効果的な学習材料である一方、純粋な平行文書データは有害となり得ることを示す。
  • 文書レベルの翻訳性能をより適切に評価するための対照評価の生成的バリアントを提案する。

提案手法

  • 連結型の文書間トレーニング手法を用いる:隣接する文を <sep> 区切りで疑似文書に連結する。
  • 文書を意識したサンプリングを用いた並列データとバック翻訳データの混合プールで、標準的なTransformerモデル(エンコーダ12層、デコーダ6層)を訓練する。
  • コントラスト型と生成型の文書レベルのテストセットの双方、および標準的な文レベル指標(BLEU、COMET)で評価する。
  • 文書レベルの生成品質をより適切に捉えるため、対照的指標の生成的バリアント(GenPro、ContraGen)を導入する。
  • バック翻訳データ vs 平行データからの文書コンテキスト学習を比較する分析を検討し、代名詞/性別解決現象を調べる。
Figure 1: Escaping the rut of sentence-level translation: (1) source documents from trustworthy data only, (2) feed them into large-capacity standard Transformer models, and (3) use test sets that evaluate a model’s generative ability.
Figure 1: Escaping the rut of sentence-level translation: (1) source documents from trustworthy data only, (2) feed them into large-capacity standard Transformer models, and (3) use test sets that evaluate a model’s generative ability.

実験結果

リサーチクエスチョン

  • RQ1十分な容量を持つ標準的なTransformerアーキテクチャを用いた場合、文書レベル翻訳は文レベルのベースラインより改善されるか?
  • RQ2文書レベルのトレーニングデータは、バック翻訳されたモノリンガルデータから効果的に調達できるか、また平行文書データは必要かつ有益か?
  • RQ3対照的文書レベル指標は、文書対応MTシステムの生成能力と整合するか、生成的バリアントで改善できるか?

主な発見

Language PairSentence-level BLEUSentence-level COMETDocument-level BLEUDocument-level COMET
DE->EN32.854.533.054.9
EN->DE37.261.637.562.0
EN->FR45.669.045.170.0
EN->RU34.070.034.170.4
  • 十分なモデル容量が提供される場合、文書レベル翻訳は文書レベルのベースラインより改善される。
  • バック翻訳データからの文書サンプルでの訓練は効果的であり、単独の平行文書データを使用するより好ましい場合が多い。
  • 対照的文書レベル指標は改善を示すことがあるが、生成型指標は文書コンテキストモデルに対してより明確な利得を示し、特に代名詞/談話現象で顕著である。
  • 4つの言語対で評価した場合、文書コンテキストモデルは文書レベル評価で一貫した利得を示す一方、文レベル指標は文脈利用に対して変動的または限定的な利得を示す。
  • ターゲット文脈を強制デコードし、生成評価バリアントを用いることで、真の文書生成能力を有するモデルと識別的能力のみを持つモデルを区別するのに役立つ。
(d) GTWiC example. The first Russian sentence uses the formal register.
(d) GTWiC example. The first Russian sentence uses the formal register.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。