Skip to main content
QUICK REVIEW

[论文解读] Adapting Large Language Models for Document-Level Machine Translation

Minghao Wu, Thuy-Trang Vu|arXiv (Cornell University)|Jan 12, 2024
Natural Language Processing Techniques被引用 7
一句话总结

本文通过在单语和并行文档微调的基础上,研究将中等规模的 LLM 应用于文档级翻译(DocMT),比较 PEFT 与全微调、提示与模型主干在多语言对上的探索,并分析错译与话语现象。

ABSTRACT

Large language models (LLMs) have significantly advanced various natural language processing (NLP) tasks. Recent research indicates that moderately-sized LLMs often outperform larger ones after task-specific fine-tuning. This study focuses on adapting LLMs for document-level machine translation (DocMT) for specific language pairs. We first investigate the impact of prompt strategies on translation performance and then conduct extensive experiments using two fine-tuning methods, three LLM backbones, and 18 translation tasks across nine language pairs. Our results show that specialized models can sometimes surpass GPT-4 in translation performance but still face issues like off-target translation due to error propagation in decoding. We provide an in-depth analysis of these LLMs tailored for DocMT, examining translation errors, discourse phenomena, strategies for training and inference, the data efficiency of parallel documents, recent test set evaluations, and zero-shot crosslingual transfer. Our findings highlight the strengths and limitations of LLM-based DocMT models and provide a foundation for future research.

研究动机与目标

  • 评估提示策略如何影响 DocMT 的性能。
  • 在多种 LLM 主干上评估两种微调范式(PEFT 与 FFT)对 DocMT 的影响。
  • 将基于 LLM 的 DocMT 与最先进的有监督 MT 以及 GPT-4 基线进行比较。
  • 分析翻译错误、话语现象及训练策略,以理解基于 LLM 的 DocMT 的优势与局限。
  • 检验并行文档微调的扩展规律以及零-shot 跨语迁移。

提出的方法

  • 使用两阶段训练,某些情况下三阶段训练,先单语数据再平行数据,对中等规模的 LLMs (7B) 进行微调。
  • 在三种主干:Llama2-7B、Bloom-7B 和 Vicuna-7B 上比较参数高效微调(LoRA)与全微调。
  • 基于 IWSLT2017 平行文档数据,在九对语言上使用18个翻译任务。
  • 研究提示变体(四种提示类型),评估微调和推理阶段的上下文与指令效应。
  • 用 sBLEU、dBLEU 和 COMET 进行评估,并分析错译、跨目标翻译及话语现象。
  • 检验对 WMT2023 测试集的泛化能力以及零-shot 跨语迁移。

实验结果

研究问题

  • RQ1不同的提示策略如何影响微调与文档级翻译的性能?
  • RQ2在数据效率、性能和过拟合方面,PEFT (LoRA) 与全微调在 DocMT 上有何差异?
  • RQ3在某些语言对和任务上,带有任务特定 DocMT 微调的中等规模 LLM 是否优于 GPT-4?
  • RQ4基于 LLM 的 DocMT 的主要错误来源是什么(如错译、话语错误),它们与传统 DocMT 相比如何?
  • RQ5扩展与训练策略如何影响性能与泛化,包括零-shot 跨语迁移?

主要发现

  • 在某些语言对上,采用 DocMT 微调的中等规模 LLM 可能优于某些 GPT-4-turbo 任务,但在其他情况下会出现错译。
  • PEFT (LoRA) 通常优于全微调,FFT 在数据效率方面约为数据的 1%,而 LoRA 约需 10% 才能达到可比结果。
  • 在英→其他语言方向,传统 DocMT 模型在标准指标上可能优于基于 LLM 的 DocMT;但在其他语言→英的方向,基于 LLM 的 DocMT 可以在 sBLEU 和 dBLEU 上达到或超过传统 DocMT,COMET 更偏向传统 DocMT。
  • LoRA 模型通常显示更好的迁移性和较少的过拟合,相较于 FFT,但有些情况下 FFT 也出现过拟合。
  • 错译率在某些失败任务中可能非常高(最高可达 98.3%),使用 Bloom 基于的多语种主干有时可降低此风险(如 B-7B-LoRA)。
  • 三阶段训练对于强语言并非始终必要;扩展规律显示,在某些设置下,小数据子集也能达到接近峰值的性能。
  • 用多语言基础进行预训练且未经过指令微调的主干,在许多情况下能实现比经过指令微调的变体更好的零-shot 跨语迁移。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。