QUICK REVIEW

[论文解读] LuxMT Technical Report

Nils Rehlinger|arXiv (Cornell University)|Feb 17, 2026

Natural Language Processing Techniques被引用 0

一句话总结

LuxMT 是从 Gemma 3 在 LB→FR 和 LB→EN 上微调的卢森堡语机器翻译系统，具有自定义 LB 基准、通过 LuxEmbedder 的数据过滤，并显示出显著提升；它还将 LuxEmbedder 作为质量估计器进行探索。

ABSTRACT

We introduce LuxMT, a machine translation system based on Gemma 3 27B and fine-tuned for translation from Luxembourgish (LB) into French (FR) and English (EN). To assess translation performance, we construct a novel benchmark covering LB-FR, LB-EN, and LB-FR using human-translated data from Luci, a tourist magazine about Luxembourg. Training data stems from LuxAlign, a parallel corpus of multilingual Luxembourgish news articles, and LB parliamentary transcripts augmented with Google Translate. We filter the data using LuxEmbedder, LB sentence embeddings, to remove low-equivalence segment-pairs. Overall, LuxMT's results suggest strong improvements over the Gemma 3 baseline, even for translating LB to German (DE), despite the training data not containing any DE. We also explore LuxEmbedder's potential to be used as a quality estimation metric and find strong correlations with other reference-based metrics. However, we call for further research to fully assess the metric's utility and advise using it with caution.

研究动机与目标

通过针对 LB→FR 和 LB→EN 的专门化，使高质量的卢森堡语 MT 成为可能并可实现。
构建一个自定义的卢森堡语多语言基准，以避免数据污染并评估翻译质量。
研究使用 LuxEmbedder 嵌入来进行数据过滤，以提升训练数据质量。
在 LB→FR、LB→EN、LB→DE 上评估 LuxMT 以探究跨语言传输效应。
探索 LuxEmbedder 作为潜在的无参考质量估计度量，并分析其与传统度量的相关性。

提出的方法

通过基于 Luci 的基准对比多个人工局部大语言模型，选择最适合 LB 翻译的基础模型。
在经筛选的 LuxAlign 与议会文本混合数据上，对 Gemma 3 进行带 LuxEmbedder 过滤阈值的微调。
使用一轮训练（一个 epoch）的微调计划，学习率为 2e-5。
在评估中去除引号，计算多指标集成（BLEURT-20、xCOMET XL、BERTScore、LE、BLEU、chrF2、TER），并将 LuxEmbedder 作为 QE 探针。
比较 LB→FR、LB→EN、LB→DE 的结果，并报告相对于 Gemma 3 基线的增量。
考察即使没有 DE 专门微调，LB→DE 仍因跨语言传输而获得改进的情况。

实验结果

研究问题

RQ1LuxMT 在使用 LuxEmbedder 过滤数据进行微调后，是否在 LB→FR 和 LB→EN 上优于 Gemma 3 基线？
RQ2 跨语言传输是否在没有 DE 专门微调的情况下也能带来 LB→DE 的改进？
RQ3相对于参考基准度量，LuxEmbedder 作为质量估计代理在 LB→FR、LB→EN、LB→DE 上的有效性如何？
RQ4数据过滤阈值和训练 epoch 对卢森堡语 MT 性能的影响是什么？
RQ5基于 Luci 和 LuxAlign 数据构建的 LB 基准的可靠性和领域覆盖范围如何？

主要发现

LuxMT 在 Luci 基准上对 LB→FR 和 LB→EN 相对于 Gemma 3 基线有显著提升。
LuxMT 在 LB→DE 上也显示出增益，尽管没有对 DE 数据进行微调，表明存在跨语言传输能力。
LuxEmbedder 与若干参考基准度量高度相关，提示其作为质量估计工具具有潜力，但需谨慎使用。
较高的 LuxEmbedder 过滤阈值（最终微调为 .98）保留了更多高同义数据并提升了性能。
对 Gemma 3 进行 1 次 epoch、学习率为 2e-5 的微调，并采用 32k LB→FR 和 22.5k LB→EN 的数据混合，获得强劲结果。
温度设置对性能的影响结论不明确；更倾向于单轮 epoch 的微调。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。