Skip to main content
QUICK REVIEW

[论文解读] Enhancing Document-Level Machine Translation via Filtered Synthetic Corpora and Two-Stage LLM Adaptation

Ireh Kim, Tesia Sker|arXiv (Cornell University)|Mar 23, 2026
Natural Language Processing Techniques被引用 0
一句话总结

本论文提出一种两阶段微调方法来进行基于大语言模型增强数据的文档级机器翻译,利用多指标筛选的数据,显著提升文档级翻译质量,相较单阶段训练更优。

ABSTRACT

In Machine Translation, Large Language Models (LLMs) have generally underperformed compared to conventional encoder-decoder systems and thus see limited adoption. However, LLMs excel at modeling contextual information, making them a natural fit for document-level translation tasks where coherence across sentences is crucial. Despite this potential, document-level MT with LLMs faces two key challenges: (1) the scarcity of large-scale, high-quality document-level parallel data; and (2) the propensity of LLMs to introduce hallucinations and omissions during generation. To address these challenges, we propose a two-stage fine-tuning strategy leveraging LLM-augmented document-level data. First, we augment data by converting summarization data into document-level parallel data using a LLM, and then filter it using multiple metrics, leveraging sacreBLEU, COMET, and LaBSE-based cosine similarity-to improve data quality. Finally, we employ a two-stage fine-tuning strategy: first fine-tuning on the abundant sentence-level MT resources, and then on the filtered document-level corpus.

研究动机与目标

  • 为基于LLM的MT解决高质量文档级并行数据的稀缺问题。
  • 缓解LLM生成翻译中的幻觉与遗漏。
  • 提出将摘要数据转化为文档级MT对的增量数据管道。
  • 开发利用句级与文档级数据的两阶段微调策略。

提出的方法

  • 将CNN/Daily Mail摘要数据转换为English–German文档级MT对,使用Llama-3.1-8B-Instruct。
  • 创建带有Google Translate的伪参考以实现基于参考的评估。
  • 使用多指标对增强数据进行筛选:sacreBLEU、COMET,以及基于LaBSE的余弦相似度(LaBSE-CosSim)。
  • 通过对源语句嵌入和译文嵌入取平均后计算LaBSE-CosSim的余弦相似度。
  • 模型以两阶段微调:先在丰富的句级MT数据上微调,然后在筛选后的文档级语料上微调。
Fig. 1 : Overview of the document-level MT data augmentation and filtering pipeline. We convert a summarization dataset (CNN/Daily Mail) into document-level MT pairs using a large language model ( Llama-3.1-8B-Instruct ), then apply filtering using sacreBLEU, COMET, and LaBSE-CosSim. For reference-b
Fig. 1 : Overview of the document-level MT data augmentation and filtering pipeline. We convert a summarization dataset (CNN/Daily Mail) into document-level MT pairs using a large language model ( Llama-3.1-8B-Instruct ), then apply filtering using sacreBLEU, COMET, and LaBSE-CosSim. For reference-b

实验结果

研究问题

  • RQ1两阶段微调策略是否在文档级MT表现上优于仅在增强数据上训练的效果?
  • RQ2对LLM增强数据进行多指标筛选如何影响翻译质量和鲁棒性?
  • RQ3在筛选增强数据时,sacreBLEU、COMET和LaBSE-CosSim的有效阈值应为多少?
  • RQ4哪些指标组合能带来最佳的整体文档级MT性能?

主要发现

  • 两阶段微调在sacreBLEU、COMET、LaBSE-CosSim及其几何均值上均持续优于仅进行文档级训练的基线。
  • 对增强数据使用更高阈值进行筛选可提升性能,其中sacreBLEU为筛选提供了显著贡献。
  • 将sacreBLEU与COMET或LaBSE-CosSim结合使用比COMET–LaBSE-CosSim对更能带来更强的收益。
  • 最佳总体配置采用三者指标并设定阈值:sacreBLEU ≥ 35、COMET ≥ 0.75、LaBSE-CosSim ≥ 0.85,达到COMET 0.701、LaBSE-CosSim 0.860、sacreBLEU 15.96。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。