QUICK REVIEW

[論文レビュー] From LLM to NMT: Advancing Low-Resource Machine Translation with Claude

Maxim Enis, Mark Hopkins|arXiv (Cornell University)|Apr 22, 2024

Natural Language Processing Techniques被引用数 10

ひとこと要約

この論文は翻訳のために Claude 3 Opus を評価し、低リソースの英語翻訳が高い実績を示し、FLORES-200 データの汚染の証拠、および Claude 派生データを蒸留して Yoruba-English でベースラインを上回るコンパクトな NMT モデルを作る方法を示しています。

ABSTRACT

We show that Claude 3 Opus, a large language model (LLM) released by Anthropic in March 2024, exhibits stronger machine translation competence than other LLMs. Though we find evidence of data contamination with Claude on FLORES-200, we curate new benchmarks that corroborate the effectiveness of Claude for low-resource machine translation into English. We find that Claude has remarkable extit{resource efficiency} -- the degree to which the quality of the translation model depends on a language pair's resource level. Finally, we show that advancements in LLM translation can be compressed into traditional neural machine translation (NMT) models. Using Claude to generate synthetic data, we demonstrate that knowledge distillation advances the state-of-the-art in Yoruba-English translation, meeting or surpassing strong baselines like NLLB-54B and Google Translate.

研究の動機と目的

英語をターゲットおよびソースとする高資源・低資源・極低資源言語ペア全体にわたって、Claude 3 Opus の翻訳品質を評価する。
FLORES-200 におけるデータ汚染を調査し、見知られた BBC由来のベンチマークで結果を比較する。
英語への翻訳を特に重視して、NLLB-54B および Google Translate と比較した Claude の翻訳のリソース効率を分析する。
知識蒸留を実証する：Claude 生成データを用いてコンパクトな NMT モデルを改善する。
文書文脈の拡張（バッチ処理）を検討し、Claude の翻訳品質を向上させ、コストを削減する。

提案手法

Claude 3 Opus を用いて 36 言語ペアを英語から xxx、および xxx から英語への両方向で翻訳する。
FLORES-200 を超えた汎化を評価するために、見知られた評価セット（BBC News、マルタ語 MASRI-HEADSET）を作成する。
文脈内の実例（文レベル8個、文書レベル1個）を用いたプロンプト調整と、温度パラメータ調整（0.7）を行う。
言語資源レベル（Wikipedia 記事数）に対する回帰を用いて Claude と NLLB-54B を比較し、リソース効率を定量化する。
コーパスを前向き翻訳して小型 NMT モデルを訓練する知識蒸留を適用し（文書コンテキスト対応）、ベースラインと比較する。
文書レベルの文脈を用いて蒸留用の合成データを生成する実験（Claude ベースの蒸留、Google 蒸留、ベース蒸留）。

(a) Comparison for the xxx->eng direction.

実験結果

リサーチクエスチョン

RQ1低リソース言語ペアを英語へ翻訳する場合、そして英語から他言語へ翻訳する場合において、Claude 3 Opus は強力なベースライン（NLLB-54B、Google Translate）を超えられるか？
RQ2英語をターゲットとする翻訳で、他のLLMと比べて Claude の翻訳性能はよりリソース効率が高いか？
RQ3FLORES-200 の評価におけるデータ汚染はどれほど影響するか、見知られたベンチマークは Claude の真の翻訳能力を裏付けるか？
RQ4 Claude 由来の合成データは、特に Yoruba-English に対して小型 NMT モデルへの効果的な知識蒸留を可能にするか？
RQ5文書レベルの文脈（バッチ処理）を取り入れることで、Claude の翻訳品質が向上し推論コストが削減されるか？

主な発見

英語への翻訳時に多くの言語ペアでベースラインを上回り、ベースラインを上回る翻訳方向が 11 通り（BBC の未知データ）を達成。
Claude は英語への翻訳で高いリソース効率を示し、他のLLMよりも高く、xxx->eng 翻訳では NLLB-54B に匹敵。
FLORES-200様式設定で xxx->eng の言語ペアの 56%、eng->xxx の翻訳で 33% において Claude は NLLB-54B を上回り、全体では 44% の言語ペアで Claude が NLLB-54B を上回り、22% のタスクで Google Translate を上回る。
FLORES-200 でデータ汚染の証拠が観察され、結果の検証には unseen BBC データの使用を促す。
Claude 生成データを用いた知識蒸留はベースラインと同等かそれ以上のコンパクトなモデルを生み出し、文書レベルのプロンプト（claude_doc）が最良の性能を示す。
Yoruba-English を対象とした Claude を活用した蒸留手法は競争力のある spBLEU/chrF++ スコアを達成し、文書文脈蒸留がベースラインを上回った。

(b) Comparison for the eng->xxx direction.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。