[论文解读] BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual Transfer
BUFFET 在固定少样本、文本对文本的基准中统一了 54 种语言的 15 项任务,用于比较多语言大模型和迁移方法,发现在上下文学习中,往往在少样本跨语言迁移中表现不及微调。
Despite remarkable advancements in few-shot generalization in natural language processing, most models are developed and evaluated primarily in English. To facilitate research on few-shot cross-lingual transfer, we introduce a new benchmark, called BUFFET, which unifies 15 diverse tasks across 54 languages in a sequence-to-sequence format and provides a fixed set of few-shot examples and instructions. BUFFET is designed to establish a rigorous and equitable evaluation framework for few-shot cross-lingual transfer across a broad range of tasks and languages. Using BUFFET, we perform thorough evaluations of state-of-the-art multilingual large language models with different transfer methods, namely in-context learning and fine-tuning. Our findings reveal significant room for improvement in few-shot in-context cross-lingual transfer. In particular, ChatGPT with in-context learning often performs worse than much smaller mT5-base models fine-tuned on English task data and few-shot in-language examples. Our analysis suggests various avenues for future research in few-shot cross-lingual transfer, such as improved pretraining, understanding, and future evaluations.
研究动机与目标
- 为少样本跨语言迁移在多样化任务与语言中建立一个严格、均衡的评估框架。
- 将异质的 NLP 任务统一为单一文本对文本格式,以实现对模型与方法的公平比较。
- 提供固定的少样本示例和多语言说明,尽量减少提示词工程与体系偏差。
- 在微调与上下文学习迁移设置下评估最先进的多语言大模型。
- 突出提升少样本跨语言迁移的挑战与方向,特别是对低代表性语言。
提出的方法
- 将 15 项任务从 54 种语言统一为单一文本对文本格式,并对每种语言与任务设定固定的 k-shot 演示。
- 评估多种迁移方法,包括目标微调、英文微调,以及英文+目标微调。
- 在上下文学习方法中,使用英文和目标语言的说明与演示,并包含像 Z-EICL 这样的零样本基线。
- 在微调与 ICL 设置下,纳入指令微调与非指令微调的 LMs,包括 mT5-base、BLOOM、BLOOMZ、mT0-xxl 以及 ChatGPT。
- 通过英语、翻译文本及人工翻译提示,翻译与标准化任务指令,以实现跨语言评估。
- 使用涵盖八类 NLP 任务(分类、生成、提取、结构化预测)的翻译型与原生语言数据集的多样化混合。
- 通过对每种语言与任务评估三个固定的 k-shot 集,并对语言结果进行宏观平均,控制少样本方差。

实验结果
研究问题
- RQ1在标准化基准下,上下文学习在少样本跨语言迁移中是否与微调具有竞争力?
- RQ2不同迁移方法在不同任务与语言上的表现如何,特别是在低代表性语言中?
- RQ3演示和指令如何影响迁移质量,且对不同模型的最佳设置是否不同?
- RQ4模型预训练和指令微调对少样本跨语言迁移有何影响?
- RQ5在少样本跨语言迁移的数据集创建与模型开发方面有哪些未来研究方向?
主要发现
- 在用大规模多语言大模型进行上下文学习时,通常落后于在英文数据和少样本目标语言示例上进行微调的较小模型。
- 微调方法,尤其是带有目标语言数据的微调,往往在低代表性语言中超越上下现学习。
- 指令微调模型可以提升零样本迁移,但在少样本情境下可能因与演示不对齐而表现不佳。
- 不同 k-shot 演示对性能的变动性很大,上下文学习对演示选择的敏感性高于微调。
- 预训练与指令微调的选择对下游跨语言迁移影响显著,有时甚至大于迁移方法本身。
- ChatGPT 在生成任务上表现出色,但在较不代表性语言的判别任务上可能不及小型模型,在某些设置下小型模型更具鲁棒性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。