[论文解读] Few-shot Learning with Multilingual Language Models
本文在一个 500B-token、30 语言的语料库上训练多语种生成语言模型(参数最高可达 7.5B),研究零-shot 和跨上下文少量学习,跨多语言任务的提示效果,展示在多语种模型的 FLORES-101 方向上实现了最先进的少样本翻译,同时指出多语种预训练可能会导致英语表现下降。
Large-scale generative language models such as GPT-3 are competitive few-shot learners. While these models are known to be able to jointly represent many different languages, their training data is dominated by English, potentially limiting their cross-lingual generalization. In this work, we train multilingual generative language models on a corpus covering a diverse set of languages, and study their few- and zero-shot learning capabilities in a wide range of tasks. Our largest model with 7.5 billion parameters sets new state of the art in few-shot learning in more than 20 representative languages, outperforming GPT-3 of comparable size in multilingual commonsense reasoning (with +7.4% absolute accuracy improvement in 0-shot settings and +9.4% in 4-shot settings) and natural language inference (+5.4% in each of 0-shot and 4-shot settings). On the FLORES-101 machine translation benchmark, our model outperforms GPT-3 on 171 out of 182 directions with 32 training examples, while surpassing the official supervised baseline in 45 directions. We conduct an in-depth analysis of different multilingual prompting approaches, showing in particular that strong few-shot learning performance across languages can be achieved via cross-lingual transfer through both templates and demonstration examples. Finally, we evaluate our models in social value tasks such as hate speech detection in five languages and find it has limitations similar to comparable sized GPT-3 models.
研究动机与目标
- 研究多语种生成语言模型的零-shot 和上下文中少量学习。
- 评估跨语言提示和跨语言演示在多语种任务中的效果。
- 在自然语言理解、翻译和多语种机器翻译基准上评估多语种模型,与以英语为中心的基线进行对比。
提出的方法
- 在 500B 令牌的多语种语料库(CC100-XL)上训练四个解码器端因果语言模型(564M、1.7B、2.9B、7.5B),覆盖 30 种语言,拥有联合的 250k SentencePiece 词汇表。
- 在不对参数进行更新的前提下,使用提示来评估零-shot 和少量-shot 的性能,0、1、4、32、和 128-shot 的设置视情况而定。
- 探索提示策略,包括本地语言提示、英语模板、翻译基础的提示,以及跨语言提示。
- 通过在输入上下文中附加不同语言的示例来研究跨语言演示。
- 与 GPT-3(6.7B)及翻译基线(翻译-测试)在多语言任务和 FLORES-101 MT 方向上进行对比。
- 通过改变模型规模和 shot 数,分析放大学习规模对利用上下文演示的影响。
实验结果
研究问题
- RQ1多语种生成语言模型在多样语言集合上的零-shot 和上下文少样本任务上表现如何?
- RQ2英语提示加上非英语示例或跨语言提示是否能够实现强大的多语种上下文学习?
- RQ3跨语言提示和跨语言演示如何影响在资源水平不同的语言上的表现?
- RQ4扩大模型规模对多语言少样本学习和跨语言迁移的影响如何?
- RQ5相较于以英语为中心的模型和翻译基线,多语种模型在机器翻译和多语言自然语言理解基准上的表现如何?
主要发现
- 7.5B 参数的 XGLM 模型在超过 20 种语言的多语言自然语言理解与推理任务上实现了最先进的少样本表现,在 0-shot 和 4-shot 设置中尤为显著提升。
- 在 FLORES-101 MT 上,XGLM-7.5B 在 182 个方向中的 171 个方向上以 32 个训练样例优于 GPT-3 对手,并在 45 个方向上超越官方监督基线。
- 使用英语模板的跨语言提示通常在多语言上实现强大的零-shot 和少-shot 结果,有时优于本地语言模板,具体取决于任务和语言对。
- 在高资源语言中的演示可以显著提升低资源语言的表现,但当目标语言提示已很强时,这种收益会减少。
- 与 GPT-3 6.7B 相比,XGLM-7.5B 在非英语任务上通常展示出更优的多语言性能,尽管英语任务相对于英语中心模型可能会有所下降。
- 翻译-测试基线(翻译成英语后再进行 GPT-3 推断)在多语言上具有竞争力且通常表现强劲,凸显了在多语言少样本设定中翻译的价值。
- 扩展模型规模对多语言任务和跨语言演示效果带来更广泛的收益,尽管并非在所有任务上都一致(如 PAWS-X 显现出波动)。
- XGLM 在 WMT FLORES-101 方向上展现出有竞争力的机器翻译性能,表明在无平行数据的低资源语言上也具有潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。