[论文解读] The unreasonable effectiveness of few-shot learning for machine translation
简短摘要:使用仅五个上下文示例、在自监督数据上训练的8B解码器模型进行少量示例翻译,在高资源语言对上达到或超过专门的监督基线,并扩展到低资源设置,且输出具有可控性。
We demonstrate the potential of few-shot translation systems, trained with unpaired language data, for both high and low-resource language pairs. We show that with only 5 examples of high-quality translation data shown at inference, a transformer decoder-only model trained solely with self-supervised learning, is able to match specialized supervised state-of-the-art models as well as more general commercial translation systems. In particular, we outperform the best performing system on the WMT'21 English - Chinese news translation task by only using five examples of English - Chinese parallel data at inference. Moreover, our approach in building these models does not necessitate joint multilingual training or back-translation, is conceptually simple and shows the potential to extend to the multilingual setting. Furthermore, the resulting models are two orders of magnitude smaller than state-of-the-art language models. We then analyze the factors which impact the performance of few-shot translation systems, and highlight that the quality of the few-shot demonstrations heavily determines the quality of the translations generated by our models. Finally, we show that the few-shot paradigm also provides a way to control certain attributes of the translation -- we show that we are able to control for regional varieties and formality using only a five examples at inference, paving the way towards controllable machine translation systems.
研究动机与目标
- 激励使用少量示例学习,在没有大型平行语料或反向翻译的情况下构建翻译模型。
- 证明一个8B解码器仅模型能够超越商业基线,并在英德、英中翻译上接近WMT风格基线。
- 表明该方法扩展到低资源语言(冰岛语),并通过示例选择实现输出的可控性(地区多样性和正式度)。
- 分析影响少样本翻译性能的因素,重点是示例质量和风格控制效果。
提出的方法
- 使用一个解码器仅 Transformer,32 层,16 个头,隐藏维度4096,以及多查询注意力。
- 使用适用于解码器模型的UL2目标的一种变体进行训练,结合两个 span-corruption 实例、前缀语言建模和因果语言建模目标。
- 推理时通过从开发集抽取五个示例,并使用带有MBR解码和基于学习的BLEURT效用的模板提示,执行少样本翻译。
- 以BLEURT-20为主评估,在附录中报告BLEU以确保完整性,并与WMT基线、Google翻译、PaLM以及多语言/双语语言模型进行比较。
- 在固定每语言数据约束下,探索多语言扩展(双语与三语)并评估训练数据规模与训练轮次对冰岛语的影响。
实验结果
研究问题
- RQ1在不使用反向翻译或大规模平行语料的情况下,训练于自监督数据的8B解码器仅模型,是否能在少样本设置中达到具有竞争力的翻译质量?
- RQ2演示示例的质量与风格如何影响少样本翻译的质量与可控性?
- RQ3少样本方法是否扩展到低资源语言,且能否在地区变体与正式度上实现可控性?
- RQ4使用MBR解码与束束搜索在该设置下的影响,以及服务成本的权衡?
- RQ5多语言或在约束内的多语言训练如何影响各语言在少样本翻译中的表现?
主要发现
- 使用五个上下文示例时,8B解码器仅模型在英德和英中方向能够超越商业翻译基线,且接近或超过某些WMT’21基线。
- 在低资源冰岛语翻译中,该方法与WMT基线竞争,在至少一个方向上可以超越某些商业基线,尽管数据远少于对比。
- 演示的质量强烈预测翻译质量;高质量示例带来更好的BLEURT分数,而地区变体或正式度不匹配的示例会降低性能。
- 演示风格实现可控输出;使用反映目标区域变体或正式度水平的示例,可以得到更高的FRMT-score和形式性准确性,显示出无需微调的可控MT潜力。
- MBR解码在所有评估设置中比束搜索持续提高BLEURT分数,尽管计算量更大。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。