QUICK REVIEW

[논문 리뷰] TranslateGemma Technical Report

Mara Finkelstein, Isaac Caswell|arXiv (Cornell University)|2026. 01. 13.

Natural Language Processing Techniques인용 수 1

한 줄 요약

TranslateGemma는 Gemma 3를 기반으로 구축된 공개 번역 모델 세트로, 감독 데이터와 강화 학습으로 미세 조정되어 다중 모달 능력을 유지하면서 55개 언어 쌍의 번역 품질을 향상시킵니다.

ABSTRACT

We present TranslateGemma, a suite of open machine translation models based on the Gemma 3 foundation models. To enhance the inherent multilingual capabilities of Gemma 3 for the translation task, we employ a two-stage fine-tuning process. First, supervised fine-tuning is performed using a rich mixture of high-quality large-scale synthetic parallel data generated via state-of-the-art models and human-translated parallel data. This is followed by a reinforcement learning phase, where we optimize translation quality using an ensemble of reward models, including MetricX-QE and AutoMQM, targeting translation quality. We demonstrate the effectiveness of TranslateGemma with human evaluation on the WMT25 test set across 10 language pairs and with automatic evaluation on the WMT24++ benchmark across 55 language pairs. Automatic metrics show consistent and substantial gains over the baseline Gemma 3 models across all sizes. Notably, smaller TranslateGemma models often achieve performance comparable to larger baseline models, offering improved efficiency. We also show that TranslateGemma models retain strong multimodal capabilities, with enhanced performance on the Vistra image translation benchmark. The release of the open TranslateGemma models aims to provide the research community with powerful and adaptable tools for machine translation.

연구 동기 및 목표

고품질 병렬 데이터(인간 + 합성)를 사용해 Gemma 3를 미세 조정하여 폭넓은 언어 집합에서 기계 번역 품질을 향상시키는 것.
다양한 보상 모델 앙상블을 활용한 강화 학습으로 번역 출력을 최적화하는 것.
텍스트와 이미지 번역에서 다중 모달 기능을 보존하고 입증하는 것.
저자원 언어를 포함한 여러 모델 크기와 언어 쌍에서 성능을 평가하는 것.
재현성과 커뮤니티 주도형 MT 연구를 촉진하기 위해 오픈 모델을 공개하는 것.

제안 방법

감독 미세 조정(SFT)과 강화 학습(RL)으로 구성된 2단계 미세 조정 파이프라인.
SFT는 인간 생성 및 Gemini 생성 합성 병렬 데이터와 일반 지시 따라하기 데이터를 혼합해 사용하며, 미세 조정 중 임베딩은 고정.
MADLAD-400에서 제작된 합성 데이터로, Gemini 2.5 Flash 및 MetricX 24-QE를 이용한 필터링 절차를 통해 고품질 샘플을 선별.
RL은 MetricX-24-XXL-QE, Gemma-AutoMQM-QE, ChrF, Naturalness Autorater 및 일반 보상 모델을 포함하는 보상 모델 앙상블을 사용하며 토큰 수준의 어드밴티지(장점)를 도입한다.
RL 학습은 토큰 수준의 어드밴티지와 배치 정규화를 사용해 시퀀스 수준 보상과 정렬하고, 범위 수준 크레딧 할당을 가능하게 한다.

실험 결과

연구 질문

RQ1TranslateGemma가 Gemma 3 기준선에 비해 광범위한 언어 쌍에서 번역 품질을 향상시키는가?
RQ2작은 TranslateGemma 모델이 더 큰 기준 모델에 비해 번역 품질과 효율성 면에서 어떤 차이를 보이는가?
RQ3TranslateGemma 모델이 이미지-대-텍스트 번역을 포함한 다중 모달 번역 능력을 유지하는가?
RQ4RL 보상 앙상블이 언어 전반에 걸친 번역 품질 및 평가 지표에 미치는 영향은 무엇인가?
RQ5다양한 언어에 대해 TranslateGemma에 대한 인간 평가가 자동 지표와 어떻게 비교되는가?

주요 결과

크기	시스템	MetricX↓	C22↑
27B	Gemma 3	4.04	83.1
27B	TranslateGemma	3.09	84.4
12B	Gemma 3	4.86	81.6
12B	TranslateGemma	3.60	83.5
4B	Gemma 3	6.97	77.2
4B	TranslateGemma	5.32	80.1

TranslateGemma 모델은 55개 언어 쌍에서 자동 지표(MetricX 및 Comet22) 기준으로 크기에 관계없이 Gemma 3 기준선보다 우수하다.
27B TranslateGemma는 MetricX 3.09를 달성하고 Gemma 3은 4.04(23.5% 개선) ; 12B는 3.60 대 4.86(25.9%); 4B는 5.32 대 6.97(23.6%).
더 작은 TranslateGemma 모델도 더 큰 기준선과 유사한 성능에 도달하며, 12B TranslateGemma가 27B Gemma 3 모델을 능가하고 4B TranslateGemma가 여러 사례에서 12B Gemma 3과 겨룬다.
TranslateGemma 모델은 다중 모달 기능을 유지하며, 27B 및 4B에서 Vistra의 이미지 번역이 개선되고 주로 12B에서도 그렇다; 12B 경우 Comet22 결과가 혼재.
인간 MQM 평가가 자동 지표 경향을 크게 확인하며 TranslateGemma가 대부분의 언어 쌍에서 Gemma 3를 능가한다; 일본어→영어는 명명 엔터티 문제로 인해 회귀를 보인다.
데이터와 모델은 MT 연구 개발을 지원하기 위한 오픈 자원으로 공개된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.