QUICK REVIEW

[論文レビュー] Enhancing Document-Level Machine Translation via Filtered Synthetic Corpora and Two-Stage LLM Adaptation

Ireh Kim, Tesia Sker|arXiv (Cornell University)|Mar 23, 2026

Natural Language Processing Techniques被引用数 0

ひとこと要約

論文は、複数指標でフィルタリングされたデータを用いたLLM強化データによる文書レベルMTの2段階微調整アプローチを提案し、単段階訓練より文書レベル翻訳品質の改善を達成する。

ABSTRACT

In Machine Translation, Large Language Models (LLMs) have generally underperformed compared to conventional encoder-decoder systems and thus see limited adoption. However, LLMs excel at modeling contextual information, making them a natural fit for document-level translation tasks where coherence across sentences is crucial. Despite this potential, document-level MT with LLMs faces two key challenges: (1) the scarcity of large-scale, high-quality document-level parallel data; and (2) the propensity of LLMs to introduce hallucinations and omissions during generation. To address these challenges, we propose a two-stage fine-tuning strategy leveraging LLM-augmented document-level data. First, we augment data by converting summarization data into document-level parallel data using a LLM, and then filter it using multiple metrics, leveraging sacreBLEU, COMET, and LaBSE-based cosine similarity-to improve data quality. Finally, we employ a two-stage fine-tuning strategy: first fine-tuning on the abundant sentence-level MT resources, and then on the filtered document-level corpus.

研究の動機と目的

LLMベースのMTの高品質な文書レベル並列表データの不足を解消する。
LLM生成翻訳の幻覚と omissions を軽減する。
要約データを文書レベルMTペアへ転換するデータ増強パイプラインを提案する。
文レベルデータと文書レベルデータを活用した2段階微調整戦略を開発する。

提案手法

CNN/Daily Mail要約データを英語–ドイツ語文書レベルMTペアへ変換（Llama-3.1-8B-Instructを使用）。
リファレンス評価を可能にするためGoogle Translateを用いた偽リファレンスを作成。
sacreBLEU、COMET、LaBSEベースのコサイン類似度（LaBSE-CosSim）など複数指標で augmentedデータをフィルタリング。
ソース文と翻訳の文埋め込みを平均化しコサイン類似度を取ることでLaBSE-CosSimを計算。
最初に豊富な文レベルMTデータで、次にフィルタリングされた文書レベルコーパスで2段階の微調整を行う。

Fig. 1 : Overview of the document-level MT data augmentation and filtering pipeline. We convert a summarization dataset (CNN/Daily Mail) into document-level MT pairs using a large language model ( Llama-3.1-8B-Instruct ), then apply filtering using sacreBLEU, COMET, and LaBSE-CosSim. For reference-b

実験結果

リサーチクエスチョン

RQ12段階微調整戦略は augmentedデータのみで訓練する場合と比較して文書レベルMTの性能を向上させるか。
RQ2LLM強化データの多指標フィルタリングは翻訳品質と頑健性にどのように影響するか。
RQ3augmentedデータのフィルタリング時のsacreBLEU、COMET、LaBSE-CosSimの有効なしきい値はどれか。
RQ4どの指標の組み合わせが最も良い全体の文書レベルMT性能をもたらすか。

主な発見

2段階微調整は、sacreBLEU、COMET、LaBSE-CosSim、およびそれらの幾何平均において文書レベルのみの訓練を一貫して上回る。
より高い閾値で augmented データをフィルタリングすると性能が向上し、特にsacreBLEUベースのフィルタリングが顕著に寄与する。
sacreBLEUとCOMET、またはLaBSE-CosSimを組み合わせると、COMET–LaBSE-CosSimの組より強い改善をもたらす。
最良の全体設定は3指標すべてを用い、閾値はsacreBLEU ≥ 35、COMET ≥ 0.75、LaBSE-CosSim ≥ 0.85とするのが最適で、COMET 0.701、LaBSE-CosSim 0.860、sacreBLEU 15.96を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。