Skip to main content
QUICK REVIEW

[論文レビュー] Adaptive Machine Translation with Large Language Models

Yasmin Moslem, Rejwanul Haque|arXiv (Cornell University)|Jan 30, 2023
Natural Language Processing Techniques被引用数 42
ひとこと要約

この論文は、ドメイン用語とスタイルに合わせたリアルタイム適応型機械翻訳を、インコンテキスト学習を用いた大規模言語モデル(GPT-3.5、GPT-4、BLOOM)で検討し、曖昧な一致や用語制約付き翻訳を含む、5つの言語ペアに渡って対応する。

ABSTRACT

Consistency is a key requirement of high-quality translation. It is especially important to adhere to pre-approved terminology and adapt to corrected translations in domain-specific projects. Machine translation (MT) has achieved significant progress in the area of domain adaptation. However, real-time adaptation remains challenging. Large-scale language models (LLMs) have recently shown interesting capabilities of in-context learning, where they learn to replicate certain input-output text generation patterns, without further fine-tuning. By feeding an LLM at inference time with a prompt that consists of a list of translation pairs, it can then simulate the domain and style characteristics. This work aims to investigate how we can utilize in-context learning to improve real-time adaptive MT. Our extensive experiments show promising results at translation time. For example, LLMs can adapt to a set of in-domain sentence pairs and/or terminology while translating a new sentence. We observe that the translation quality with few-shot in-context learning can surpass that of strong encoder-decoder MT systems, especially for high-resource languages. Moreover, we investigate whether we can combine MT from strong encoder-decoder models with fuzzy matches, which can further improve translation quality, especially for less supported languages. We conduct our experiments across five diverse language pairs, namely English-to-Arabic (EN-AR), English-to-Chinese (EN-ZH), English-to-French (EN-FR), English-to-Kinyarwanda (EN-RW), and English-to-Spanish (EN-ES).

研究の動機と目的

  • ファインチューニングなしで、LLMによるインコンテキスト学習が翻訳をドメイン内の用語とスタイルに適応できるかを評価する。
  • 多様な言語に対して、エンコーダ-デコーダ型 MT システムと比較したLLMベースの適応型 MT の性能を評価する。
  • few-shot プロンプトにおける曖昧マッチ(翻訳メモリ)の翻訳品質への影響を調査する。
  • 用語抽出と用語制約付き MT がLLM翻訳を導く際の有効性を検討する。

提案手法

  • 翻訳タスクには API 経由で GPT-3.5 text-davinci-003 を用い、top-p=1 で低温度、用語抽出には温度ゼロを適用する。
  • ドメイン固有の TM データセット(TICO-19)からの文脈を取り入れ、1–10 の異なる数の曖昧マッチを few-shot の例として組み込んだプロンプトを構築する。
  • Sentence-Transformers の all-MiniLM-L6-v2 を用いた埋め込みベースの最近傍探索で曖昧マッチを取得する。
  • EN-AR, EN-ZH, EN-FR, EN-RW, EN-ES を横断して、GPT-3.5 ベースの適応型 MT をオープンソースおよび商用のエンコーダ-デコーダ MT システム(OPUS, NLLB, Google, DeepL)と比較する。
  • エンコーダ-デコーダモデルの MT 出力を GPT-3.5 のプロンプトと組み合わせること、または曖昧マッチ自体を翻訳することを試す。
  • GPT-3.5 を用いた用語抽出を探究し、用語集の用語をプロンプトへ埋め込むことで用語制約付き MT を実装する。
Figure 1: Evaluation results for GPT-3.5 zero-shot, and few-shot translation with random context or fuzzy matches. Average scores across EN-AR, EN-ES, EN-FR, and EN-ZH language pairs. While using a random context outperforms zero-shot translation, using fuzzy matches reveals the best results.
Figure 1: Evaluation results for GPT-3.5 zero-shot, and few-shot translation with random context or fuzzy matches. Average scores across EN-AR, EN-ES, EN-FR, and EN-ZH language pairs. While using a random context outperforms zero-shot translation, using fuzzy matches reveals the best results.

実験結果

リサーチクエスチョン

  • RQ1追加のファインチューニングなしで、LLMによるインコンテキスト学習はドメイン特有の翻訳パターンを再現できるか?
  • RQ2曖昧マッチを提供した場合、GPT-3.5/4 および BLOOM のバリアントは、ドメイン内翻訳において強力なエンコーダ–デコーダ MT システムを上回るか?
  • RQ3言語間で曖昧マッチの数を増やすことが翻訳品質に与える影響は何か?
  • RQ4エンコーダ–デコーダモデルの MT 出力をプロンプトに組み込むと GPT-3.5 の翻訳が改善されるか?
  • RQ5用語抽出とプロンプトへの用語集統合は、一貫性と翻訳品質を向上させるか?

主な発見

  • 複数の言語ペアに渡って、曖昧マッチを用いた few-shot のインコンテキスト学習は、zero-shot およびランダム文脈プロンプトより翻訳品質を向上させる。
  • EN-AR, EN-ES, EN-FR, EN-ZH において、5–10 の曖昧マッチを用いた GPT-3.5 は、いくつかの高資源対において強力なエンコーダ–デコーダ MT システムを上回ることがあり、言語によってはより多くのマッチから恩恵を受ける。
  • GPT-3.5 の翻訳とエンコーダ–デコーダモデルの MT 出力を組み合わせると、いくつかの言語ペア(例:EN-AR、EN-ZH、EN-FR、EN-ES)で大幅な利得をもたらすが、普遍的ではない。
  • 用語集を用いたプロンプトの用語制約付き MT はドメイン用語の準拨守を改善し、全体の翻訳品質を高める可能性がある。人間評価では用語の移送の増加と測定された品質の向上が示された。
  • ゼロショットの用語制約プロンプトは、場合によっては few-shot プロンプトと同等の利得を達成できる一方で、文法的正確さとのトレードオフが生じることがある。
Figure 2: Evaluation results for GPT-3.5 few-shot translation with 5 or 10 fuzzy matches compared to encoder-decoder MT models (DeepL, Google, OPUS, and NLLB). Specifically, for EN-ES, EN-FR, and EN-ZH language pairs, few-shot translation with GPT-3.5 outperforms conventional systems.
Figure 2: Evaluation results for GPT-3.5 few-shot translation with 5 or 10 fuzzy matches compared to encoder-decoder MT models (DeepL, Google, OPUS, and NLLB). Specifically, for EN-ES, EN-FR, and EN-ZH language pairs, few-shot translation with GPT-3.5 outperforms conventional systems.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。