[论文解读] UL2: Unifying Language Learning Paradigms
UL2 提出了一种统一的预训练框架,采用 Mixture-of-Denoisers (MoD) 和模式切换,以在多样化的 NLP 任务中实现通用性能,在规模达到 20B 参数时超越 T5 和 GPT 风格模型。
Existing pre-trained models are generally geared towards a particular class of problems. To date, there seems to be still no consensus on what the right architecture and pre-training setup should be. This paper presents a unified framework for pre-training models that are universally effective across datasets and setups. We begin by disentangling architectural archetypes with pre-training objectives -- two concepts that are commonly conflated. Next, we present a generalized & unified perspective for self-supervision in NLP and show how different pre-training objectives can be cast as one another and how interpolating between different objectives can be effective. We then propose Mixture-of-Denoisers (MoD), a pre-training objective that combines diverse pre-training paradigms together. We furthermore introduce a notion of mode switching, wherein downstream fine-tuning is associated with specific pre-training schemes. We conduct extensive ablative experiments to compare multiple pre-training objectives and find that our method pushes the Pareto-frontier by outperforming T5 & GPT-like models across multiple diverse setups. By scaling our model up to 20B parameters, we achieve SOTA performance on 50 well-established supervised finetuning based NLP tasks. Our model also achieve strong results at in-context learning, outperforming 175B GPT-3 on zero-shot SuperGLUE and tripling the performance of T5-XXL on one-shot summarization. On 0-shot MMLU, UL2 20B outperforms T0 and T5 models. UL2 20B also works well with chain-of-thought prompting and reasoning, making it an appealing choice for research into reasoning at a small to medium scale of 20B parameters. Finally, we apply FLAN instruction tuning to the UL2 20B model, achieving MMLU and Big-Bench scores competitive to FLAN-PaLM 62B. We release Flax-based T5X checkpoints for the UL2 20B & Flan-UL2 20B.
研究动机与目标
- 激发对在多样下游任务与设置中也能表现出色的通用预训练语言模型的需求。
- 将架构选择与预训练目标分离,以展示目标设计比骨干架构更具影响力。
- 引入 Mixture-of-Denoisers (MoD) 以混合多样化的去噪目标并实现强跨任务迁移。
- 提出模式切换,将下游微调与特定的预训练方案绑定以提升适应性。
- 展示扩展到 20B 参数在广泛任务集合上实现 SOTA,并取得有利的零-shot/少样本表现。
提出的方法
- 定义一个统一的输入到目标去噪的形式,将因果语言模型、前缀语言模型和跨度破坏作为特例纳入其中。
- 引入 Mixture-of-Denoisers (R-Denoiser, S-Denoiser, X-Denoiser) 并配置一个 7-denoiser 混合以训练通用模型。
- 通过哨兵令牌引入模式切换,在预训练和下游任务中动态在 R、S、X 去噪器之间进行选择。
- 通过同时支持解码器-only 和 编码器-解码器 backbone,同时保持类似 T5 的 Transformer 骨架,维持架构无关的立场。
- 在 32B tokens 上进行预训练,使用 500k 步,数据来源为 C4,评估在 50+ 个任务上,包括 SuperGLUE、GEM、XSUM、ToTTo 和 SGD,并与基线(GPT-like、T5、UniLM)进行比较。
- 扩展到 ~20B 参数,并评估对监督微调、基于提示的学习、思维链提示以及 FLAN 风格的指令微调的影响。
实验结果
研究问题
- RQ1单一的预培训目标和架构是否能够在判别式微调和基于提示的生成任务中都达到具有竞争力的表现?
- RQ2不同的去噪目标如何互相补充,混合(MoD)是否优于标准的单一目标预训练?
- RQ3模式切换是否能够有效地将下游微调与合适的预训练方案对齐,从而提升各种任务的表现?
- RQ4将 UL2 扩展到 20B 参数在广泛的 NLP 基准测试集上带来的性能提升是多少?
- RQ5在零-shot/少量样本设置以及指令微调方面,UL2 相较于最先进的模型表现如何?
主要发现
- UL2 在监督和单-shot 设置下,在 9/9 任务上超越 T5-like 与 GPT-like 基线。
- MoD 与模式切换实现了零-shot 与微调性能之间的帕累托高效平衡。
- 在约 20B 参数时,UL2 在涵盖生成、理解、推理、定位和检索等广泛任务上达到 SOTA。
- UL2 的零-shot SuperGLUE 超越 GPT-175B 的零-shot 表现;在类似计算量下的一-shot 摘要与 PaLM/LaMDA 相当或超出。
- UL2 结合 FLAN 指令微调在 MMLU 与 Big-Bench 上的表现与 FLAN-PaLM 62B 相当;20B 规模下思维链提示有效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。