[论文解读] Unified Language Model Pre-training for Natural Language Understanding and Generation
UniLM 预训练一个具有共享参数的单一 Transformer,以通过使用实现单向、双向和序列到序列目标的三种自注意力掩码来支持 NLU 和 NLG,在 GLUE、SQuAD 2.0、CoQA,以及多种摘要和生成任务上取得强劲结果。
This paper presents a new Unified pre-trained Language Model (UniLM) that can be fine-tuned for both natural language understanding and generation tasks. The model is pre-trained using three types of language modeling tasks: unidirectional, bidirectional, and sequence-to-sequence prediction. The unified modeling is achieved by employing a shared Transformer network and utilizing specific self-attention masks to control what context the prediction conditions on. UniLM compares favorably with BERT on the GLUE benchmark, and the SQuAD 2.0 and CoQA question answering tasks. Moreover, UniLM achieves new state-of-the-art results on five natural language generation datasets, including improving the CNN/DailyMail abstractive summarization ROUGE-L to 40.51 (2.04 absolute improvement), the Gigaword abstractive summarization ROUGE-L to 35.75 (0.86 absolute improvement), the CoQA generative question answering F1 score to 82.5 (37.1 absolute improvement), the SQuAD question generation BLEU-4 to 22.12 (3.75 absolute improvement), and the DSTC7 document-grounded dialog response generation NIST-4 to 2.67 (human performance is 2.65). The code and pre-trained models are available at https://github.com/microsoft/unilm.
研究动机与目标
- 提出一个单一的预训练模型,能够同时处理自然语言理解和生成任务。
- 开发一个统一的预训练框架,使用带共享参数的多种语言建模目标。
- 证明统一模型在 NLU 基准上能够匹配或超越面向任务的语言模型,并在 NLG 任务上达到最先进的结果。
提出的方法
- 使用一个24层的 Transformer,隐藏维度 1024,头数 16,初始自 BERT-LARGE,并在 Wikipedia 和 BookCorpus 上训练。
- 通过自注意力掩码实现的三种语言建模目标进行预训练:单向(从左到右和从右到左)、双向,以及序列到序列。
- 将输入打包为带有 SOS 和 EOS 标记的单序列,并应用 WordPiece 标记化,词汇表大小为 28996;按标准 MLM 规则进行 15% 掩码。
- 通过应用任务特定掩码对下游任务进行微调,并在适用时将模型转换为用于 NLU 的双向编码器或用于 NLG 的序列到序列的编码-解码器。
- 在目标上联合优化,采用批量混合(1/3 双向,1/3 序列到序列,1/6 从左到右,1/6 从右到左)以及标准优化设置(Adam、warmup、衰减)。
- 在 GLUE、SQuAD 2.0、CoQA、CNN/DailyMail、Gigaword、DSTC7、SQuAD 问题生成,以及 CoQA 生成式问答 上进行评估。
实验结果
研究问题
- RQ1一个用统一预训练目标训练的单一 Transformer 模型,是否能够在自然语言理解和生成任务上都取得良好表现?
- RQ2不同的自注意力掩码(实现单向、双向和序列到序列上下文)是否能改善在 NLU 与 NLG 基准之间的迁移?
- RQ3相较于如 BERT 这类面向任务的预训练语言模型,在使用 UniLM 时,在标准基准(GLUE、SQuAD、CoQA)以及生成任务(摘要、问答生成、对话应答)上获得的提升是多少?
- RQ4跨语言模型目标的参数共享对泛化和减少部署中的模型多样性是否有益?
- RQ5在文档支撑的对话生成和跨领域生成任务上,UniLM 的表现如何?
主要发现
- 在 GLUE 和 SQuAD 2.0/CoQA 的抽取式问答上,与 BERT 相当,同时具备强大的生成能力。
- 在五个 NLG 数据集上创造新的最先进结果:CNN/DailyMail 抽象摘要 ROUGE-L 40.51,Gigaword ROUGE-L 35.75,CoQA 生成式问答 F1 82.5,SQuAD 问题生成 BLEU-4 22.12,以及 DSTC7 对话应答生成 NIST-4 2.67。
- 在 CNN/DailyMail 和 Gigaword 上展示了优于先前模型的抽象摘要性能,以及在生成式问答和对话任务中的出色表现。
- GLUE 评估显示 UniLM 在多项任务上可与 BERT-LARGE 相媲美。
- 使用 UniLM 的问题生成在 SQuAD 数据集上达到 BLEU-4、METEOR 和 ROUGE-L 的最新水平。
- 通过 UniLM 的生成式问答在 CoQA 上显著缩小与抽取式方法的差距,超过了先前的生成基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。