Skip to main content
QUICK REVIEW

[论文解读] Transformers for Low-Resource Languages: Is Féidir Linn!

Séamus Lankford, Haithem Alfi|arXiv (Cornell University)|Mar 4, 2024
Topic Modeling参考文献 28被引用 8
一句话总结

该论文对英语–爱尔兰语翻译在低资源条件下的 Transformer 模型进行超参数优化,结果表明子词建模(SentencePiece 使用 16k BPE)和对 Transformer 进行调优的配置相对于基线和 RNN 模型可获得显著的 BLEU 提升。

ABSTRACT

The Transformer model is the state-of-the-art in Machine Translation. However, in general, neural translation models often under perform on language pairs with insufficient training data. As a consequence, relatively few experiments have been carried out using this architecture on low-resource language pairs. In this study, hyperparameter optimization of Transformer models in translating the low-resource English-Irish language pair is evaluated. We demonstrate that choosing appropriate parameters leads to considerable performance improvements. Most importantly, the correct choice of subword model is shown to be the biggest driver of translation performance. SentencePiece models using both unigram and BPE approaches were appraised. Variations on model architectures included modifying the number of layers, testing various regularisation techniques and evaluating the optimal number of heads for attention. A generic 55k DGT corpus and an in-domain 88k public admin corpus were used for evaluation. A Transformer optimized model demonstrated a BLEU score improvement of 7.8 points when compared with a baseline RNN model. Improvements were observed across a range of metrics, including TER, indicating a substantially reduced post editing effort for Transformer optimized models with 16k BPE subword models. Bench-marked against Google Translate, our translation engines demonstrated significant improvements. The question of whether or not Transformers can be used effectively in a low-resource setting of English-Irish translation has been addressed. Is féidir linn - yes we can.

研究动机与目标

  • 解决在 MT 中针对低资源语言(爱尔兰语)的翻译挑战。
  • 评估在数据有限的条件下, Transformer 架构是否优于 RNN。
  • 识别子词建模选择对翻译质量的影响。
  • 探索超参数(注意力头数、层数、正则化)如何影响 Transformer 的性能。
  • 为构建英语–爱尔兰语翻译的 MT 系统提供实用指南。

提出的方法

  • 使用两个英语–爱尔兰语平行语料库(55k DGT 通用、88k PA 领域内)进行评估。
  • 在随机搜索超参数优化(HPO)下比较基线 RNN 和 Transformer 架构。
  • 将源语和目标语数据拼接,创建共享的 SentencePiece 子词模型。
  • 评估子词模型(BPE 4k–32k 词汇、unigram)和 Transformer 设置(头数、层数、dropout、标签平滑)。
  • 以快速的随机搜索循环进行训练(每个配置 5k 步的简短训练)以识别良好超参数,然后进行微调。
  • 与 Google Translate 进行基准比较,并报告 BLEU、TER 和 ChrF3 指标)。
Figure 1: Proposed Approach
Figure 1: Proposed Approach

实验结果

研究问题

  • RQ1在低资源数据情境下, Transformer 模型是否能够有效地用于英语–爱尔兰语翻译?
  • RQ2子词模型选择(BPE 与 unigram)及词汇量大小如何影响英语–爱尔兰语的翻译质量?
  • RQ3在低资源 MT 的情况下,最优的 Transformer 超参数(头数、层数、正则化)是什么?
  • RQ4在英语–爱尔兰语翻译任务中,优化子词建模的 Transformer 与基线 RNN 及 Google Translate 相比有何差异?
  • RQ5结果是否能在通用数据(DGT)和领域内数据(PA)间泛化?

主要发现

  • Transformer 模型在两个数据集上均优于 RNN。
  • 16k BPE 子词模型达到最佳 Transformer 性能,在 DGT 数据集上的 BLEU 为 60.5,TER 为 0.33(相较基线 53.4)。
  • 对于 PA 领域内数据,8 个注意力头与 16k BPE 也能带来强力表现(BLEU 60.x,TER 约 0.33–0.34)。
  • RNN 对子词模型的增益较小(在 DGT 最高约提升 3 BLEU 点;在 PA 上增益较小)。
  • 通过随机搜索进行超参数优化,在较小的 DGT 模型中 2 个头在某些配置中为最优,而在较大的 PA 语料库上 8 个头则优于 2 个头。
  • 优化后的 Transformer 配合子词分割可降低后期校对工作量并降低困惑度,相比基线收敛更快且验证指标更好。
Figure 2: BLEU performance for all model architectures
Figure 2: BLEU performance for all model architectures

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。