[论文解读] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
本文介绍了 T5,一种统一的文本到文本 Transformer 框架,用于将所有 NLP 任务转换为文本到文本问题,在大型 C4 语料库上进行预训练,并在多样化的基准测试中取得了最先进的结果。
Transfer learning, where a model is first pre-trained on a data-rich task before being fine-tuned on a downstream task, has emerged as a powerful technique in natural language processing (NLP). The effectiveness of transfer learning has given rise to a diversity of approaches, methodology, and practice. In this paper, we explore the landscape of transfer learning techniques for NLP by introducing a unified framework that converts all text-based language problems into a text-to-text format. Our systematic study compares pre-training objectives, architectures, unlabeled data sets, transfer approaches, and other factors on dozens of language understanding tasks. By combining the insights from our exploration with scale and our new ``Colossal Clean Crawled Corpus'', we achieve state-of-the-art results on many benchmarks covering summarization, question answering, text classification, and more. To facilitate future work on transfer learning for NLP, we release our data set, pre-trained models, and code.
研究动机与目标
- 通过将所有任务都表述为文本到文本问题,来激发一个用于研究 NLP 转移学习的统一框架。
- 在规模化上评估和比较预训练目标、架构、数据集和迁移方法。
- 证明扩大模型规模和数据量可在多种 NLP 任务中带来显著性能提升。
提出的方法
- 采用与 BERT 规模基线相似的编码器-解码器 Transformer 架构,但扩展到更大容量。
- 使用任务前缀来指定输出,将每个任务表述为文本到文本问题。
- 在 Colossal Clean Crawled Corpus (C4) 上进行带去噪目标的预训练,并采用逆平方根学习率调度。
- 在下游任务上进行统一训练设定的微调,并在测试时采用贪婪解码。
- 使用 SentencePiece 及共用的多语言词汇表来支持英语及非英语翻译任务。
- 发布代码、数据和预训练模型以实现可重复性。
实验结果
研究问题
- RQ1将 NLP 任务重新表述为文本到文本问题如何影响转移学习的有效性?
- RQ2模型规模和数据质量/规模对广泛 NLP 任务的性能有何影响?
- RQ3不同的预训练数据、目标和架构如何在统一框架中与转移学习相互作用?
主要发现
- 将任务文本到文本化并采用统一模型,在摘要、问答、翻译和分类基准上表现出色。
- 将模型规模扩展到数十亿参数并在大型清洗语料上进行训练,在许多任务上达到最先进的结果。
- C4 提供了丰富的无标签数据资源,该方法展示了大规模预训练在多样化 NLP 任务中的价值。
- 统一框架使得在任务空间复杂性的情况下仍能对转移学习因素进行系统比较。
- 作者发布了他们的数据、模型和代码,以促进未来在 NLP 转移学习方面的研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。