QUICK REVIEW

[论文解读] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

Yu Sun, Shuohuan Wang|arXiv (Cornell University)|Jul 5, 2021

Topic Modeling参考文献 79被引用 193

一句话总结

ERNIE 3.0 引入一个大规模、知识增强的预训练框架，将自回归与自编码目标融合，在语言理解和生成任务上实现强劲表现；该框架受持续多范式方法和 4TB 的纯文本与知识图谱数据混合数据的指导。

ABSTRACT

Pre-trained models have achieved state-of-the-art results in various Natural Language Processing (NLP) tasks. Recent works such as T5 and GPT-3 have shown that scaling up pre-trained language models can improve their generalization abilities. Particularly, the GPT-3 model with 175 billion parameters shows its strong task-agnostic zero-shot/few-shot learning capabilities. Despite their success, these large-scale models are trained on plain texts without introducing knowledge such as linguistic knowledge and world knowledge. In addition, most large-scale models are trained in an auto-regressive way. As a result, this kind of traditional fine-tuning approach demonstrates relatively weak performance when solving downstream language understanding tasks. In order to solve the above problems, we propose a unified framework named ERNIE 3.0 for pre-training large-scale knowledge enhanced models. It fuses auto-regressive network and auto-encoding network, so that the trained model can be easily tailored for both natural language understanding and generation tasks with zero-shot learning, few-shot learning or fine-tuning. We trained the model with 10 billion parameters on a 4TB corpus consisting of plain texts and a large-scale knowledge graph. Empirical results show that the model outperforms the state-of-the-art models on 54 Chinese NLP tasks, and its English version achieves the first place on the SuperGLUE benchmark (July 3, 2021), surpassing the human performance by +0.8% (90.6% vs. 89.8%).

研究动机与目标

推动将知识（语言知识与世界知识）整合到大规模预训练中，以提升下游任务的性能。
提出一个统一的 Continual Multi-Paradigms Unified Pre-training Framework，支持 NLU、NLG 和知识抽取任务。
构建一个 10B 参数的 ERNIE 3.0 模型，在 4TB 的纯文本加知识图谱上进行训练。
在广泛的 NLP 基准测试（54 项中文任务）和英文 SuperGLUE 上，展示相对于现有最先进模型的改进。
提供培训策略（渐进式训练、多任务目标）和数据整理方法，以实现高效的大规模知识增强预训练。

提出的方法

提出一个通用表示模块（共享）以及两个任务特定表示模块（NLU 与 NLG），在学习任务特定的顶层表示的同时共享底层特征。
骨干网络使用 Transformer-XL 来建模长距离依赖，并为通用模块提供辅助记忆；在任务特定模块中，NLU 使用双向编码，而 NLG 使用单向编码。
采用一组覆盖：词语感知（知识掩码语言模型）、结构感知（句子重排序、句子距离）、知识感知（UKTP：通用知识文本预测）以及用于生成的文档级语言建模的预训练任务。
引入持续多范式学习，使具备共享编码器和任务特定解码器的多任务预训练成为可能，从而实现零-shot、少样本或微调的下游任务。
数据：一个 4TB 的中文语料，结合纯文本和百度知识图谱；通过去重、筛选和分词等步骤提升数据质量。
预训练设置：共享模块使用 48 层的通用 Transformer-XL（隐藏层 4,096，头数 64），任务特定模块为 12 层（隐藏层 768，头数 12）；总参数量为 10B；在 6144 个 NVIDIA V100 GPU 上使用 PaddlePaddle 进行训练，Token 总量 375B；采用渐进式训练，考虑内存和序列长度。

实验结果

研究问题

RQ1一个知识增强的预训练框架在大规模下能同时提升语言理解和生成任务吗？
RQ2将自回归与自编码目标与持续多任务学习融合，是否能为下游任务带来比单一范式预训练更好的表征？
RQ3在一个 10B 参数模型中，将知识图谱与纯文本结合，对多样化 NLP 基准测试的性能有何影响？
RQ4从共享的通用表示和任务特定模块出发，增量的、任务特定的微调表现如何？

主要发现

ERNIE 3.0 在 54 项中文 NLP 基准测试上取得最先进的结果，显著超越强基线。
在报告时，ERNIE 3.0 的英文版本在 SuperGLUE 基准测试中排名第一（90.6% 对 89.8% 的人类水平）。
该统一框架使 NLU 和 NLG 任务能够实现零-shot、少样本和微调范式。
将大规模知识整合与持续多范式预训练结合起来，在理解和生成任务上均对比先前模型有显著提升。
渐进式训练以及包含知识图谱的大规模高质量语料有助于训练稳定性和性能提升。
该模型在包括情感分析、自然语言推理、阅读理解、命名实体识别与生成任务在内的广泛任务中表现出稳健的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。