[论文解读] UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training
UniLMv2 预训练一个统一的双向编码器和一个序列到序列解码器,使用伪掩码语言建模,在多个自然语言理解和生成基准上实现最先进结果。
We propose to pre-train a unified language model for both autoencoding and partially autoregressive language modeling tasks using a novel training procedure, referred to as a pseudo-masked language model (PMLM). Given an input text with masked tokens, we rely on conventional masks to learn inter-relations between corrupted tokens and context via autoencoding, and pseudo masks to learn intra-relations between masked spans via partially autoregressive modeling. With well-designed position embeddings and self-attention masks, the context encodings are reused to avoid redundant computation. Moreover, conventional masks used for autoencoding provide global masking information, so that all the position embeddings are accessible in partially autoregressive language modeling. In addition, the two tasks pre-train a unified language model as a bidirectional encoder and a sequence-to-sequence decoder, respectively. Our experiments show that the unified language models pre-trained using PMLM achieve new state-of-the-art results on a wide range of natural language understanding and generation tasks across several widely used benchmarks.
研究动机与目标
- 在单一模型中实现统一预训练,以同时支持语言理解和生成。
- 引入伪掩码语言建模(PMLM),以学习标记和跨度之间的互相关系及内部关系。
- 重用编码结果,避免重复计算,并实现高效的自编码(AE)与部分自回归(PAR)学习的联合。
- 展示将自编码与部分自回归目标结合能够为多样任务提供互补表示。
提出的方法
- 定义两个 MLM 目标:自编码(AE)用于双向编码,部分自回归(PAR)用于序列到序列解码。
- 引入伪掩蔽 [Pseudo],其与原始标记共享位置嵌入,以在单次前向传播中在 AE 与 PAR 之间实现共同上下文。
- 使用分块掩蔽和因式分解顺序,使 PAR 的预测单元不仅是单个标记,而是跨度。
- 设计自注意力掩蔽以控制上下文可访问性并防止跨因子分解步骤的信息泄露。
- 使用 L = L_AE + L_PAR 进行训练,以联合优化两个目标并在任务之间重用隐藏状态。
- 在 NLU 任务上作为双向编码器进行微调,在 NLG 任务上作为自回归解码器进行微调,并输出任务特定的结果。
实验结果
研究问题
- RQ1通过通过 PMLM 结合 AE 与 PAR 的统一预训练框架,是否可以同时提升理解和生成任务?
- RQ2掩蔽策略和因式分解顺序如何影响标记间、标记-跨度之间的关系学习?
- RQ3在 AE 和 PAR 之间共享参数是否在不牺牲性能的前提下带来效率提升?
- RQ4使用 UniLMv2 时,在 SQuAD、GLUE 和抽象摘要基准上的经验收益是多少?
主要发现
- 在 SQuAD 上,UniLMv2 base 在 v1.1 获得 93.1 F1 和 87.1 EM,在 v2.0 获得 86.1 F1 和 83.3 EM。
- 在 GLUE 上,UniLMv2 base 在 MNLI、SST-2 等任务上优于 BERT-base 和 XLNet-base,MNLI 精度提升至 88.5,SST-2 精度提升至 95.1。
- 在抽象摘要方面,UniLMv2 base 在 CNN/DailyMail 和 XSum 上达到强劲的 ROUGE 分数,超过若干基线和同等规模的模型。
- 问题生成等其他 NLG 任务显示 UniLMv2 base 相对于基线和部分更大规模的预训练模型,在 BLEU/METEOR/ROUGE 指标上具有优势。
- 消融研究表明,AE+PAR 联合训练在预训练目标中产生最佳结果,PAR 对跨度级建模贡献突出,分块掩蔽有助于捕捉长距离依赖。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。