[论文解读] LuxMT Technical Report
LuxMT 是从 Gemma 3 在 LB→FR 和 LB→EN 上微调的卢森堡语机器翻译系统,具有自定义 LB 基准、通过 LuxEmbedder 的数据过滤,并显示出显著提升;它还将 LuxEmbedder 作为质量估计器进行探索。
We introduce LuxMT, a machine translation system based on Gemma 3 27B and fine-tuned for translation from Luxembourgish (LB) into French (FR) and English (EN). To assess translation performance, we construct a novel benchmark covering LB-FR, LB-EN, and LB-FR using human-translated data from Luci, a tourist magazine about Luxembourg. Training data stems from LuxAlign, a parallel corpus of multilingual Luxembourgish news articles, and LB parliamentary transcripts augmented with Google Translate. We filter the data using LuxEmbedder, LB sentence embeddings, to remove low-equivalence segment-pairs. Overall, LuxMT's results suggest strong improvements over the Gemma 3 baseline, even for translating LB to German (DE), despite the training data not containing any DE. We also explore LuxEmbedder's potential to be used as a quality estimation metric and find strong correlations with other reference-based metrics. However, we call for further research to fully assess the metric's utility and advise using it with caution.
研究动机与目标
- 通过针对 LB→FR 和 LB→EN 的专门化,使高质量的卢森堡语 MT 成为可能并可实现。
- 构建一个自定义的卢森堡语多语言基准,以避免数据污染并评估翻译质量。
- 研究使用 LuxEmbedder 嵌入来进行数据过滤,以提升训练数据质量。
- 在 LB→FR、LB→EN、LB→DE 上评估 LuxMT 以探究跨语言传输效应。
- 探索 LuxEmbedder 作为潜在的无参考质量估计度量,并分析其与传统度量的相关性。
提出的方法
- 通过基于 Luci 的基准对比多个人工局部大语言模型,选择最适合 LB 翻译的基础模型。
- 在经筛选的 LuxAlign 与议会文本混合数据上,对 Gemma 3 进行带 LuxEmbedder 过滤阈值的微调。
- 使用一轮训练(一个 epoch)的微调计划,学习率为 2e-5。
- 在评估中去除引号,计算多指标集成(BLEURT-20、xCOMET XL、BERTScore、LE、BLEU、chrF2、TER),并将 LuxEmbedder 作为 QE 探针。
- 比较 LB→FR、LB→EN、LB→DE 的结果,并报告相对于 Gemma 3 基线的增量。
- 考察即使没有 DE 专门微调,LB→DE 仍因跨语言传输而获得改进的情况。
实验结果
研究问题
- RQ1LuxMT 在使用 LuxEmbedder 过滤数据进行微调后,是否在 LB→FR 和 LB→EN 上优于 Gemma 3 基线?
- RQ2 跨语言传输是否在没有 DE 专门微调的情况下也能带来 LB→DE 的改进?
- RQ3相对于参考基准度量,LuxEmbedder 作为质量估计代理在 LB→FR、LB→EN、LB→DE 上的有效性如何?
- RQ4数据过滤阈值和训练 epoch 对卢森堡语 MT 性能的影响是什么?
- RQ5基于 Luci 和 LuxAlign 数据构建的 LB 基准的可靠性和领域覆盖范围如何?
主要发现
- LuxMT 在 Luci 基准上对 LB→FR 和 LB→EN 相对于 Gemma 3 基线有显著提升。
- LuxMT 在 LB→DE 上也显示出增益,尽管没有对 DE 数据进行微调,表明存在跨语言传输能力。
- LuxEmbedder 与若干参考基准度量高度相关,提示其作为质量估计工具具有潜力,但需谨慎使用。
- 较高的 LuxEmbedder 过滤阈值(最终微调为 .98)保留了更多高同义数据并提升了性能。
- 对 Gemma 3 进行 1 次 epoch、学习率为 2e-5 的微调,并采用 32k LB→FR 和 22.5k LB→EN 的数据混合,获得强劲结果。
- 温度设置对性能的影响结论不明确;更倾向于单轮 epoch 的微调。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。