Skip to main content
QUICK REVIEW

[论文解读] The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

Shayne Longpre, Le Hou|arXiv (Cornell University)|Jan 31, 2023
Advanced Neural Network Applications被引用 110
一句话总结

这篇论文对 Flan 2022 指令微调方法进行了消融,结果显示混合提示训练、任务多样化、输入反转,以及数据源平衡可带来 3–17% 的增益,Flan-T5 收敛更快并作为单任务微调的更强起点,同时公开发布 Flan 2022 资源。

ABSTRACT

We study the design decisions of publicly available instruction tuning methods, and break down the development of Flan 2022 (Chung et al., 2022). Through careful ablation studies on the Flan Collection of tasks and methods, we tease apart the effect of design decisions which enable Flan-T5 to outperform prior work by 3-17%+ across evaluation settings. We find task balancing and enrichment techniques are overlooked but critical to effective instruction tuning, and in particular, training with mixed prompt settings (zero-shot, few-shot, and chain-of-thought) actually yields stronger (2%+) performance in all settings. In further experiments, we show Flan-T5 requires less finetuning to converge higher and faster than T5 on single downstream tasks, motivating instruction-tuned models as more computationally-efficient starting checkpoints for new tasks. Finally, to accelerate research on instruction tuning, we make the Flan 2022 collection of datasets, templates, and methods publicly available at https://github.com/google-research/FLAN/tree/main/flan/v2.

研究动机与目标

  • 评估公开可用的指令微调方法的设计决策。
  • 分离出在 Flan 2022 集合中驱动性能提升的组成部分。
  • 评估 Flan-T5 作为单任务微调的起点。
  • 提供开源数据集、模板与方法以加速研究。

提出的方法

  • 在 Flan 2022 集合上对基于 T5-LM 的模型(XL,3B)进行微调以进行消融。
  • 在 Held-In、Held-Out 与 CoT 基准上将 Flan-T5 XL 与其他指令微调集合进行比较。
  • 针对以下方面进行受控消融:混合零-shot/小样本模板、输入反转、数据源平衡,以及扩展到 1800+ 任务。
  • 分析任务多样性与混合对 Held-In 与 Held-Out 表现的影响。
  • 评估在单任务微调中 Flan-T5 相较于 T5 的收敛速度与效率。
  • 公开发布 Flan 2022 集合、模板和方法供公众使用。

实验结果

研究问题

  • RQ1在 Held-In、Held-Out 和 CoT 基准上,哪些指令微调的设计选择对性能影响最大?
  • RQ2在训练中混合零-shot、少-shot 与 CoT 提示如何影响跨提示与跨任务的泛化?
  • RQ3将模型规模和任务数量扩大对 Flan 2022 的 Held-In 和 Held-Out 性能有何影响?
  • RQ4输入反转与任务来源平衡是否对性能提升有实质性贡献?
  • RQ5Flan-T5 能否作为比传统 T5 模型更快收敛、性能更高的单任务微调起点?

主要发现

  • 使用混合零-shot 和少-shot 提示进行训练,在 Held-In 和 Held-Out 设置中提升性能,在某些情况下增益达到 2% 以上。
  • 通过输入反转丰富任务多样性有利于 Held-Out 的评估(MMLU 与 BBH)。
  • 平衡数据源并纳入 Chain-of-Thought 数据对各项指标的改进有贡献。
  • 任务扩展到 1800+ 时带来性能提升,且更大模型更受益于任务多样性和规模。
  • Flan-T5 在单任务微调上收敛更快、精度更高,成为更强的起始检查点。
  • Flan 2022 集合在若干 Held-In 与 Held-Out 基准上优于 Flan 2021、P3++、Super-Natural Instructions 和 OPT-IML-Max 175B。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。