QUICK REVIEW

[论文解读] TranslateGemma Technical Report

Mara Finkelstein, Isaac Caswell|arXiv (Cornell University)|Jan 13, 2026

Natural Language Processing Techniques被引用 1

一句话总结

TranslateGemma 是一组基于 Gemma 3 的开放机器翻译模型，通过有监督数据和强化学习微调，在55对语言上提升翻译质量，同时保留多模态能力。

ABSTRACT

We present TranslateGemma, a suite of open machine translation models based on the Gemma 3 foundation models. To enhance the inherent multilingual capabilities of Gemma 3 for the translation task, we employ a two-stage fine-tuning process. First, supervised fine-tuning is performed using a rich mixture of high-quality large-scale synthetic parallel data generated via state-of-the-art models and human-translated parallel data. This is followed by a reinforcement learning phase, where we optimize translation quality using an ensemble of reward models, including MetricX-QE and AutoMQM, targeting translation quality. We demonstrate the effectiveness of TranslateGemma with human evaluation on the WMT25 test set across 10 language pairs and with automatic evaluation on the WMT24++ benchmark across 55 language pairs. Automatic metrics show consistent and substantial gains over the baseline Gemma 3 models across all sizes. Notably, smaller TranslateGemma models often achieve performance comparable to larger baseline models, offering improved efficiency. We also show that TranslateGemma models retain strong multimodal capabilities, with enhanced performance on the Vistra image translation benchmark. The release of the open TranslateGemma models aims to provide the research community with powerful and adaptable tools for machine translation.

研究动机与目标

通过使用高质量平行数据（人工+合成数据）对 Gemma 3 进行微调，在广泛语言集合上提升机器翻译质量。
利用多样化的奖励模型集合进行强化学习，以优化翻译输出。
保留并展示文本与图像翻译的多模态能力。
对多种模型规模和语言对进行性能评估，包括低资源语言。
发布开放模型以促进可重复性和社区驱动的机器翻译研究。

提出的方法

包含有监督微调（SFT）后接强化学习（RL）两阶段微调流程。
SFT 使用人工生成与 Gemini 生成的合成平行数据的混合，以及通用指令遵循数据；微调期间嵌入向量被冻结。
从 MADLAD-400 制作合成数据，利用 Gemini 2.5 Flash 与 MetricX 24-QE 的筛选程序挑选高质量样本。
RL 使用包括 MetricX-24-XXL-QE、Gemma-AutoMQM-QE、ChrF、Naturalness Autorater，以及通用奖励模型在内的奖励模型集合；引入逐词层面的优势。
RL 训练利用逐词优势和批量归一化以对齐序列级奖励，从而实现跨区间的信用分配。

实验结果

研究问题

RQ1TranslateGemma 相较于 Gemma 3 基线在广泛语言对上的翻译质量是否有所提升？
RQ2较小的 TranslateGemma 模型在翻译质量和效率方面与较大基线模型相比有何差异？
RQ3TranslateGemma 模型是否保留多模态翻译能力，包括图像到文本翻译？
RQ4RL 奖励集对各种语言的翻译质量和评估指标有何影响？
RQ5在人类评估与自动评估之间，TranslateGemma 在多样化语言上的表现如何？

主要发现

TranslateGemma 模型在55对语言的自动评估指标（MetricX 与 Comet22）上，按尺寸对比基线 Gemma 3 均优。
27B TranslateGemma 的 MetricX 为 3.09，Gemma 3 为 4.04（提升 23.5%）；12B 为 3.60，4.86（提升 25.9%）；4B 为 5.32，6.97（提升 23.6%）。
即使是更小的 TranslateGemma 模型，在与更大基线模型的对比中也达到接近甚至超越的表现，12B TranslateGemma 在多场景中超过了 27B Gemma 3，4B TranslateGemma 在若干场景可与 12B Gemma 3 比肩。
TranslateGemma 模型保留多模态能力，并在 Vistra 上的图像翻译得到改进，27B 和 4B 表现提升，12B 在多数情况下表现出混合的 Comet22 结果。
人类 MQM 评估基本也支持自动评估趋势，TranslateGemma 在大多数语言对上优于 Gemma 3；日语→英语由于命名实体问题出现回落。
数据与模型作为开放资源发布，以支持机器翻译领域的研究与开发。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。