QUICK REVIEW

[论文解读] Adapting Large Language Models for Document-Level Machine Translation

Minghao Wu, Thuy-Trang Vu|arXiv (Cornell University)|Jan 12, 2024

Natural Language Processing Techniques被引用 7

一句话总结

本文通过在单语和并行文档微调的基础上，研究将中等规模的 LLM 应用于文档级翻译（DocMT），比较 PEFT 与全微调、提示与模型主干在多语言对上的探索，并分析错译与话语现象。

ABSTRACT

Large language models (LLMs) have significantly advanced various natural language processing (NLP) tasks. Recent research indicates that moderately-sized LLMs often outperform larger ones after task-specific fine-tuning. This study focuses on adapting LLMs for document-level machine translation (DocMT) for specific language pairs. We first investigate the impact of prompt strategies on translation performance and then conduct extensive experiments using two fine-tuning methods, three LLM backbones, and 18 translation tasks across nine language pairs. Our results show that specialized models can sometimes surpass GPT-4 in translation performance but still face issues like off-target translation due to error propagation in decoding. We provide an in-depth analysis of these LLMs tailored for DocMT, examining translation errors, discourse phenomena, strategies for training and inference, the data efficiency of parallel documents, recent test set evaluations, and zero-shot crosslingual transfer. Our findings highlight the strengths and limitations of LLM-based DocMT models and provide a foundation for future research.

研究动机与目标

评估提示策略如何影响 DocMT 的性能。
在多种 LLM 主干上评估两种微调范式（PEFT 与 FFT）对 DocMT 的影响。
将基于 LLM 的 DocMT 与最先进的有监督 MT 以及 GPT-4 基线进行比较。
分析翻译错误、话语现象及训练策略，以理解基于 LLM 的 DocMT 的优势与局限。
检验并行文档微调的扩展规律以及零-shot 跨语迁移。

提出的方法

使用两阶段训练，某些情况下三阶段训练，先单语数据再平行数据，对中等规模的 LLMs (7B) 进行微调。
在三种主干：Llama2-7B、Bloom-7B 和 Vicuna-7B 上比较参数高效微调（LoRA）与全微调。
基于 IWSLT2017 平行文档数据，在九对语言上使用18个翻译任务。
研究提示变体（四种提示类型），评估微调和推理阶段的上下文与指令效应。
用 sBLEU、dBLEU 和 COMET 进行评估，并分析错译、跨目标翻译及话语现象。
检验对 WMT2023 测试集的泛化能力以及零-shot 跨语迁移。

实验结果

研究问题

RQ1不同的提示策略如何影响微调与文档级翻译的性能？
RQ2在数据效率、性能和过拟合方面，PEFT (LoRA) 与全微调在 DocMT 上有何差异？
RQ3在某些语言对和任务上，带有任务特定 DocMT 微调的中等规模 LLM 是否优于 GPT-4？
RQ4基于 LLM 的 DocMT 的主要错误来源是什么（如错译、话语错误），它们与传统 DocMT 相比如何？
RQ5扩展与训练策略如何影响性能与泛化，包括零-shot 跨语迁移？

主要发现

在某些语言对上，采用 DocMT 微调的中等规模 LLM 可能优于某些 GPT-4-turbo 任务，但在其他情况下会出现错译。
PEFT (LoRA) 通常优于全微调，FFT 在数据效率方面约为数据的 1%，而 LoRA 约需 10% 才能达到可比结果。
在英→其他语言方向，传统 DocMT 模型在标准指标上可能优于基于 LLM 的 DocMT；但在其他语言→英的方向，基于 LLM 的 DocMT 可以在 sBLEU 和 dBLEU 上达到或超过传统 DocMT，COMET 更偏向传统 DocMT。
LoRA 模型通常显示更好的迁移性和较少的过拟合，相较于 FFT，但有些情况下 FFT 也出现过拟合。
错译率在某些失败任务中可能非常高（最高可达 98.3%），使用 Bloom 基于的多语种主干有时可降低此风险（如 B-7B-LoRA）。
三阶段训练对于强语言并非始终必要；扩展规律显示，在某些设置下，小数据子集也能达到接近峰值的性能。
用多语言基础进行预训练且未经过指令微调的主干，在许多情况下能实现比经过指令微调的变体更好的零-shot 跨语迁移。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。