[论文解读] Unified Language Model Pre-training for Natural Language Understanding and Generation
UniLM 通过使用一个具可配置自注意力掩码的单一 Transformer,将对 NLU 和 NLG 的预训练统一起来,以支持双向、单向和序列到序列的目标,在 GLUE、SQuAD 2.0、CoQA 以及多项生成任务上取得了较强的结果。
This paper presents a new Unified pre-trained Language Model (UniLM) that can be fine-tuned for both natural language understanding and generation tasks. The model is pre-trained using three types of language modeling tasks: unidirectional, bidirectional, and sequence-to-sequence prediction. The unified modeling is achieved by employing a shared Transformer network and utilizing specific self-attention masks to control what context the prediction conditions on. UniLM compares favorably with BERT on the GLUE benchmark, and the SQuAD 2.0 and CoQA question answering tasks. Moreover, UniLM achieves new state-of-the-art results on five natural language generation datasets, including improving the CNN/DailyMail abstractive summarization ROUGE-L to 40.51 (2.04 absolute improvement), the Gigaword abstractive summarization ROUGE-L to 35.75 (0.86 absolute improvement), the CoQA generative question answering F1 score to 82.5 (37.1 absolute improvement), the SQuAD question generation BLEU-4 to 22.12 (3.75 absolute improvement), and the DSTC7 document-grounded dialog response generation NIST-4 to 2.67 (human performance is 2.65). The code and pre-trained models are available at https://github.com/microsoft/unilm.
研究动机与目标
- 提出一个单一、统一的预训练框架,覆盖 NLU 和 NLG 任务。
- 减少为不同任务维护独立语言模型所带来的复杂性和资源需求。
- 通过对多种语言建模目标的联合优化,学习可泛化的表示。
- 在涵盖理解(GLUE、QA)和生成(摘要、问答、对话)的基准测试上展示出强劲的性能。
提出的方法
- 使用一个多层 Transformer,在所有语言建模目标中共享参数。
- 设计并应用三种基于完形填空的预训练任务:单向 LM、双向 LM,以及序列到序列 LM。
- 实现自注意力掩码,在预测过程中控制每个标记的上下文可访问性。
- 以每个批次中的平衡混合来进行预训练(1/3 双向、1/3 序列到序列、1/3 单向)。
- 通过调整掩码方案并在需要时添加任务特定的层,对预训练模型进行下游任务微调。
- 从 BERT_LARGE 初始化,并在 English Wikipedia 与 BookCorpus 上进行训练;使用 WordPiece 分词和 28,996 词汇表。
- 预训练细节:24-layer Transformer,1024 hidden size,16 heads,大约 340M 参数;在 ~770k steps 上使用 8 V100 GPUs 进行训练;学习率 3e-5,warmup 40k steps,dropout 0.1。
实验结果
研究问题
- RQ1是否可以用统一目标有效地将一个单一的预训练 Transformer 微调以同时适用于 NLU 和 NLG 任务?
- RQ2统一预训练目标是否在标准基准上带来与任务特定语言模型相当或更优的性能?
- RQ3使用多种 LM 目标进行预训练的模型在生成任务(如抽象摘要、问题生成和对话应答生成)上能在多大程度上提升性能?
- RQ4在使用 UniLM 时,在结构化 QA 基准(SQuAD 2.0、CoQA)和生成基准上的相对提升是多少?
主要发现
- 在 GLUE 上,UniLM 与 BERT 相比表现良好;在 SQuAD 2.0 与 CoQA 的 extractive QA 上表现优于它。
- 在五个 NLG 数据集上,UniLM 达到新的 state-of-the-art 结果:CNN/DailyMail 摘要的 ROUGE-L 为 40.51,Gigaword 的 ROUGE-L 为 35.75,CoQA 生成式问答的 F1 为 82.5,SQuAD 问题生成的 BLEU-4 为 22.12,以及 DSTC7 对话应答生成的 NIST-4 为 2.67(human 2.65)。
- 在 abstractive 摘要方面,UniLM 超越了以往的抽象式系统,甚至超过了 CNN/DailyMail 上的强大抽取式模型(相比最佳抽取式,ROUGE-L 提升了 0.88)。
- 在 CoQA 的生成式问答中,UniLM 相对于 Seq2Seq 和 PGNet 基线取得显著提升(F1 82.5)。
- 在 SQuAD 的问题生成上,UniLM 的 BLEU-4 22.12、METEOR 25.06、ROUGE-L 51.07,优于先前的模型。
- GLUE 结果显示 UniLM 在若干任务上达到与 BERT_LARGE 相当的性能(表 11)。
- 该模型可以作为 NLU 的编码器,也可以作为 NLG 的编码器-解码器,通过统一的预训练实现跨任务迁移。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。