Skip to main content
QUICK REVIEW

[论文解读] ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

Shuohuan Wang, Yu Sun|arXiv (Cornell University)|Dec 23, 2021
Topic Modeling被引用 36
一句话总结

该论文以千亿参数级别的中文密集预训练模型(ERNIE 3.0 Titan)进行训练,使用 260B 参数,引入可信/可控生成与在线蒸馏,并在68个NLP数据集上展示了最先进的结果。

ABSTRACT

Pre-trained language models have achieved state-of-the-art results in various Natural Language Processing (NLP) tasks. GPT-3 has shown that scaling up pre-trained language models can further exploit their enormous potential. A unified framework named ERNIE 3.0 was recently proposed for pre-training large-scale knowledge enhanced models and trained a model with 10 billion parameters. ERNIE 3.0 outperformed the state-of-the-art models on various NLP tasks. In order to explore the performance of scaling up ERNIE 3.0, we train a hundred-billion-parameter model called ERNIE 3.0 Titan with up to 260 billion parameters on the PaddlePaddle platform. Furthermore, we design a self-supervised adversarial loss and a controllable language modeling loss to make ERNIE 3.0 Titan generate credible and controllable texts. To reduce the computation overhead and carbon emission, we propose an online distillation framework for ERNIE 3.0 Titan, where the teacher model will teach students and train itself simultaneously. ERNIE 3.0 Titan is the largest Chinese dense pre-trained model so far. Empirical results show that the ERNIE 3.0 Titan outperforms the state-of-the-art models on 68 NLP datasets.

研究动机与目标

  • 通过将 ERNIE 3.0 扩展到高达 260B 参数来推进知识增强的预训练。
  • 在预训练阶段整合可信且可控的生成,以提高输出的事实性和可控性。
  • 开发在线蒸馏框架以在尽量低的额外成本下高效地产生更小、可部署的模型。
  • 在多样化的中文NLP任务和数据集上展示可扩展性与有效性。

提出的方法

  • 采用通用表示模块(大型 Transformer-XL 主干)以及用于 NLU 和 NLG 的任务特定模块。
  • 设计词语感知、结构感知和知识感知的预训练任务,包括 UKTP 以及 Credible and Controllable Generations 框架。
  • 引入自监督对抗损失以提高文本的可信度,并结合带有软提示的可控语言建模损失以控制生成属性。
  • 提出一种在线蒸馏框架(On-the-Fly Distillation、teacher assistants、Auxiliary Layer Distillation)在预训练过程中训练多个紧凑学生模型。
  • 在 PaddlePaddle 上利用 4D 混合并行(数据、层内张量模型、层间流水线模型,以及分片数据并行)以及异构硬件感知训练,以进行 260B 规模的训练。
  • 在 ERNIE 3.0 语料库以及对抗性和可控数据集上进行预训练;在生成任务中保持 512 序列长度和 128 内存长度。

实验结果

研究问题

  • RQ1将 ERNIE 3.0 扩展到千亿参数规模对 NLU/NLG 任务的性能有何影响?
  • RQ2能否将可信且可控的生成有效地整合到预训练中,以提升输出的事实性和可控性?
  • RQ3在线蒸馏在不产生较高额外成本的情况下高效地产生更小、可部署的模型是否可行?
  • RQ4大规模知识增强预训练对不同中文NLP数据集(68 个数据集)的影响是如何的?

主要发现

ConfigurationNPUsDPGlobal batch sizeSpeedup
Default3921512-
Default156842048-
Resource-aware-partition48015122.19
Resource-aware-partition1920420482.17
  • ERNIE 3.0 Titan 在 68 个 NLP 数据集上优于现有最先进模型。
  • 该模型达到 260+ billion parameters(最高 260B),并展示出卓越的生成和理解能力。
  • 在线蒸馏使在预训练过程中将 Titan 蒸馏成多个更小的模型,且效率与标准训练相当。
  • 可信对抗损失与可控语言模型损失提高了生成文本的质量和可控性。
  • 面向资源的分布式训练和异构硬件(GPU 与 NPU)的使用提供了强弱扩展性,显著提升吞吐量。
  • 相比于先前的大规模密集模型,本文在下游任务上报告了 SOTA 结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。