Skip to main content
QUICK REVIEW

[论文解读] All NLP Tasks Are Generation Tasks: A General Pretraining Framework

Zhengxiao Du, Yujie Qian|arXiv (Cornell University)|Mar 18, 2021
Topic Modeling参考文献 33被引用 40
一句话总结

本文提出 GLM,一种统一的预训练框架,将所有自然语言处理任务——分类、无条件生成和条件生成——统一为使用单一架构的文本生成任务。GLM 在多种自然语言处理任务中达到最先进性能,在相同预训练数据下超越 BERT 在 SuperGLUE 上的表现,并在参数量为 BERT-Large 1.25 倍的情况下,于所有任务类型上达到或超过 BERT-Large 的性能。

ABSTRACT

There have been various types of pretraining architectures including autoregressive models (e.g., GPT), autoencoding models (e.g., BERT), and encoder-decoder models (e.g., T5). On the other hand, NLP tasks are different in nature, with three main categories being classification, unconditional generation, and conditional generation. However, none of the pretraining frameworks performs the best for all tasks, which introduces inconvenience for model development and selection. We propose a novel pretraining framework GLM (General Language Model) to address this challenge. Compared to previous work, our architecture has three major benefits: (1) it performs well on classification, unconditional generation, and conditional generation tasks with one single pretrained model; (2) it outperforms BERT-like models on classification due to improved pretrain-finetune consistency; (3) it naturally handles variable-length blank filling which is crucial for many downstream tasks. Empirically, GLM substantially outperforms BERT on the SuperGLUE natural language understanding benchmark with the same amount of pre-training data. Moreover, GLM with 1.25x parameters of BERT-Large achieves the best performance in NLU, conditional and unconditional generation at the same time, which demonstrates its generalizability to different downstream tasks.

研究动机与目标

  • 为解决不同自然语言处理任务需使用不同预训练框架的问题,该问题使模型开发与选择变得复杂。
  • 改善分类任务中的预训练-微调一致性,因为 BERT 类模型在此类任务中常表现不佳。
  • 使单个预训练模型能有效处理分类、无条件生成和条件生成任务。
  • 自然支持可变长度的填空任务,这是许多下游自然语言处理应用的关键能力。

提出的方法

  • GLM 使用因果注意力掩码,实现自回归生成,同时保持编码器类表示以用于分类任务。
  • 采用统一目标,将所有自然语言处理任务视为文本生成任务,包括用于填空的掩码跨度预测。
  • 模型架构在单一基于 Transformer 的框架内集成了解码器和编码器功能。
  • 在所有任务中应用共享词汇表和分词方式,实现一致的表征学习。
  • 预训练目标结合自回归语言建模与跨度掩码,以支持多样化的下游任务。
  • 框架支持动态序列长度,并在微调过程中支持可变长度的跨度预测。

实验结果

研究问题

  • RQ1一个单一的预训练框架能否有效处理分类、无条件生成和条件生成任务?
  • RQ2与 BERT 类模型相比,基于统一生成的方法是否能改善预训练-微调一致性?
  • RQ3该模型是否能在无需任务特定架构修改的情况下实现跨任务泛化?
  • RQ4与现有架构相比,该模型在可变长度填空任务上的表现如何?

主要发现

  • 在使用相同预训练数据量的情况下,GLM 在 SuperGLUE 基准上超越 BERT。
  • 当参数量为 BERT-Large 的 1.25 倍时,GLM 在所有自然语言理解、条件生成和无条件生成任务中均达到最先进性能。
  • 该模型展现出改进的预训练-微调一致性,使分类任务上的表现优于 BERT 类模型。
  • GLM 天然支持可变长度填空任务,这一能力对诸如完形填空式问答等任务至关重要。
  • 统一框架消除了对多种专用架构的需求,简化了模型开发与部署。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。