[论文解读] Multitask Prompted Training Enables Zero-Shot Task Generalization
论文表明,在大规模多任务提示任务套件上显式训练模型能够实现强零-shot泛化,通常在未见任务上超过更大规模的模型。
Large language models have recently been shown to attain reasonable zero-shot generalization on a diverse set of tasks (Brown et al., 2020). It has been hypothesized that this is a consequence of implicit multitask learning in language models' pretraining (Radford et al., 2019). Can zero-shot generalization instead be directly induced by explicit multitask learning? To test this question at scale, we develop a system for easily mapping any natural language tasks into a human-readable prompted form. We convert a large set of supervised datasets, each with multiple prompts with diverse wording. These prompted datasets allow for benchmarking the ability of a model to perform completely held-out tasks. We fine-tune a pretrained encoder-decoder model (Raffel et al., 2020; Lester et al., 2021) on this multitask mixture covering a wide variety of tasks. The model attains strong zero-shot performance on several standard datasets, often outperforming models up to 16x its size. Further, our approach attains strong performance on a subset of tasks from the BIG-bench benchmark, outperforming models up to 6x its size. All trained models are available at https://github.com/bigscience-workshop/t-zero and all prompts are available at https://github.com/bigscience-workshop/promptsource.
研究动机与目标
- 通过显式多任务提示训练来激发零-shot泛化。
- 从公开任务中构建一个规模大、多样化的提示数据集混合。
- 在未见任务和 BIG-bench 任务上评估零-shot 性能。
- 通过改变提示和数据集来分析对提示措辞的鲁棒性。
提出的方法
- 在多任务提示数据集混合上对编码器-解码器模型(T0)进行微调。
- 使用一个简单的模板语言将数据集转换为带有多模板的输入-目标提示。
- 从 Public Pool of Prompts (P3) 中组装提示以最大化提示多样性。
- 训练变体(T0,T0+,T0++)并使用越来越多的数据集和提示。
- 将输入/目标序列限制在 1024/256 个标记并使用训练打包。
- 报告跨提示的中位数性能并以四分位数间距衡量鲁棒性。
实验结果
研究问题
- RQ1多任务提示训练是否能提高对未见任务的零-shot泛化?
- RQ2在更广泛的提示上进行训练是否提高对提示措辞的鲁棒性?
- RQ3在未见任务上,与 GPT-3 和 BIG-bench 基线相比,所提出的方法表现如何?
主要发现
- T0 在 ~16× 更小的情况下,在 11 个未见数据集中的 9 个上达到或超过 GPT-3。
- T0 在 BIG-bench 的 14 个任务中有 13 个相对于一个大型基线有改进。
- 在每个数据集上提供更多提示的训练一致地提升中位数性能并降低变异性。
- 在更多数据集上的训练往往提升未见任务的中位数性能。
- 提示多样性(长度和风格)有助于提高跨任务的鲁棒性和泛化。
- T0 的变体通常优于 FLAN,同时规模要小得多。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。