[論文レビュー] TranslateGemma Technical Report
TranslateGemma は Gemma 3 を基盤とし、準教師データと強化学習で微調整されたオープンな翻訳モデル群。55言語ペアに対して翻訳品質を改善し、マルチモーダル能力を維持する。
We present TranslateGemma, a suite of open machine translation models based on the Gemma 3 foundation models. To enhance the inherent multilingual capabilities of Gemma 3 for the translation task, we employ a two-stage fine-tuning process. First, supervised fine-tuning is performed using a rich mixture of high-quality large-scale synthetic parallel data generated via state-of-the-art models and human-translated parallel data. This is followed by a reinforcement learning phase, where we optimize translation quality using an ensemble of reward models, including MetricX-QE and AutoMQM, targeting translation quality. We demonstrate the effectiveness of TranslateGemma with human evaluation on the WMT25 test set across 10 language pairs and with automatic evaluation on the WMT24++ benchmark across 55 language pairs. Automatic metrics show consistent and substantial gains over the baseline Gemma 3 models across all sizes. Notably, smaller TranslateGemma models often achieve performance comparable to larger baseline models, offering improved efficiency. We also show that TranslateGemma models retain strong multimodal capabilities, with enhanced performance on the Vistra image translation benchmark. The release of the open TranslateGemma models aims to provide the research community with powerful and adaptable tools for machine translation.
研究の動機と目的
- 高品質の並列データ(人間および合成)を用いた Gemma 3 の微調整により、広範な言語セットで機械翻訳品質を向上させる。
- 多様な報酬モデルのアンサンブルを活用した強化学習で翻訳出力を最適化する。
- テキストと画像の翻訳におけるマルチモーダル能力を維持・示す。
- 低資源言語を含む複数のモデルサイズと言語ペアで性能を評価する。
- 再現性とコミュニティ主導の MT 研究を促進するため、オープンモデルをリリースする。
提案手法
- 監督付き微調整(SFT)に続く強化学習(RL)という2段階の微調整パイプライン。
- SFT は人間生成データと Gemini 生成の合成並列データ、及び一般的な指示遂行データを混合して使用。微調整中は埋め込みを凍結。
- MADLAD-400 から作成された合成データを、Gemini 2.5 Flash と MetricX 24-QE によるフィルタリング手順で高品質サンプルを選択。
- RL は MetricX-24-XXL-QE、Gemma-AutoMQM-QE、ChrF、Naturalness Autorater、一般ist 報酬モデルを含む報酬モデルのアンサンブルを使用。トークンレベルのアドバンテージを組み込む。
- RL 学習はトークンレベルのアドバンテージとバッチ正規化を用いてシーケンスレベルの報酬と整合させ、スパンレベルのクレジット割り当てを可能にする。
実験結果
リサーチクエスチョン
- RQ1TranslateGemma は Gemma 3 のベースラインと比較して広範な言語ペアで翻訳品質を向上させるか。
- RQ2小型の TranslateGemma モデルは大規模なベースラインモデルと比較して翻訳品質と効率性の点でどうか。
- RQ3TranslateGemma モデルは画像からテキストへの翻訳を含むマルチモーダル翻訳機能を維持するか。
- RQ4RL 報酬アンサンブルが言語間で翻訳品質と評価指標に与える影響は何か。
- RQ5 diverse languages に対する TranslateGemma の人間評価と自動指標の比較はどうか。
主な発見
| Size | System | MetricX↓ | C22↑ |
|---|---|---|---|
| 27B | Gemma 3 | 4.04 | 83.1 |
| 27B | TranslateGemma | 3.09 | 84.4 |
| 12B | Gemma 3 | 4.86 | 81.6 |
| 12B | TranslateGemma | 3.60 | 83.5 |
| 4B | Gemma 3 | 6.97 | 77.2 |
| 4B | TranslateGemma | 5.32 | 80.1 |
- TranslateGemma モデルは 55 言語ペアにおいて、サイズ別に Gemma 3 ベースラインを自動指標(MetricX および Comet22)で上回る。
- 27B TranslateGemma は MetricX 3.09 対 Gemma 3 4.04(23.5% 改善)、12B は 3.60 対 4.86(25.9%)、4B は 5.32 対 6.97(23.6%)。
- さらに小型の TranslateGemma モデルでも大規模ベースラインに匹敵する性能を達成し、12B TranslateGemma は 27B Gemma 3 を上回り、4B TranslateGemma は 12B Gemma 3 に匹敵するケースが多い。
- TranslateGemma モデルはマルチモーダル機能を維持し、Vistra における画像翻訳の改善が27Bおよび4Bで顕著、12B ではほぼ維持。12B ケースは Comet22 結果が混合。
- 人間 MQM 評価は自動指標の傾向を大半で裏付け、TranslateGemma はほとんどの言語ペアで Gemma 3 より上回る。一方、日本語→英語は固有表現の問題により後退。
- データとモデルは MT の研究開発を支援するオープンリソースとして公開する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。