Skip to main content
QUICK REVIEW

[论文解读] Multi-Task Deep Neural Networks for Natural Language Understanding

Xiaodong Liu, Pengcheng He|arXiv (Cornell University)|Jan 31, 2019
Topic Modeling参考文献 34被引用 220
一句话总结

MT-DNN 将多任务学习与预训练 Transformer 编码器结合,以学习通用语言表示,在 GLUE 上达到最先进性能,并在 SNLI 和 SciTail 上实现领域自适应提升。

ABSTRACT

In this paper, we present a Multi-Task Deep Neural Network (MT-DNN) for learning representations across multiple natural language understanding (NLU) tasks. MT-DNN not only leverages large amounts of cross-task data, but also benefits from a regularization effect that leads to more general representations in order to adapt to new tasks and domains. MT-DNN extends the model proposed in Liu et al. (2015) by incorporating a pre-trained bidirectional transformer language model, known as BERT (Devlin et al., 2018). MT-DNN obtains new state-of-the-art results on ten NLU tasks, including SNLI, SciTail, and eight out of nine GLUE tasks, pushing the GLUE benchmark to 82.7% (2.2% absolute improvement). We also demonstrate using the SNLI and SciTail datasets that the representations learned by MT-DNN allow domain adaptation with substantially fewer in-domain labels than the pre-trained BERT representations. The code and pre-trained models are publicly available at https://github.com/namisan/mt-dnn.

研究动机与目标

  • 利用多任务学习在相关 NLU 任务之间共享表示。
  • 将基于预训练的 Transformer 编码器与多任务目标整合,以获得通用文本表示。
  • 在 GLUE、SNLI 和 SciTail 基准上展示强劲性能。
  • 在有限的域内带标签数据下展示改进的领域自适应。

提出的方法

  • 使用一个共享的词汇表编码器和 Transformer 编码器,在任务之间产生上下文化表示。
  • 将任务特定的输出模块(分类、相似度、排序)附加到共享编码器。
  • 采用两阶段训练流程:预训练(掩码语言模型和 NSP)和跨 GLUE 任务的多任务微调。
  • 为分类(交叉熵)、回归(均方误差)和排序(成对损失)采用任务特定的损失函数。
  • 加入基于 SAN 的多步推理模块,用于成对文本分类任务(NLI)。
  • 用多任务目标对初始化的共享层(BERT LARGE)进行微调,以获得 MT-DNN。

实验结果

研究问题

  • RQ1多任务学习如何在超出单任务模型的范围内提升对多样化 NLU 任务的泛化能力?
  • RQ2将多任务学习与如 BERT 之类的预训练语言模型结合,对 GLUE 任务的表现有何影响?
  • RQ3MT-DNN 是否能在极少量域内带标签数据的情况下实现有效的领域自适应?
  • RQ4哪些架构组件(如 SAN 模块、排序形式)对 NLI 与问答式任务的提升贡献最大?

主要发现

  • MT-DNN 在九个 GLUE 任务中的八个上实现了新的最先进结果,整体 GLUE 得分达到 82.7%。
  • MT-DNN 显著提升领域自适应:在使用 MT-DNN LARGE 的情况下,SNLI 达到 91.6%、SciTail 达到 95.0%(全量数据训练)。
  • MT-DNN 在域内数据有限的任务上持续优于 BERT,凸显多任务学习的正则化与迁移效应。
  • 在不微调的情况下,MT-DNN 在大多数 GLUE 任务上仍然优于 BERT LARGE,CoLA 是例外,原因在于数据集的特性。
  • 一个 ST-DNN 变体表明,任务特定输出模块和损失形式(如 QNLI 的排序)对超越 BERT 基线的提升至关重要。
  • MT-DNN 使极小标注数据集(0.1%–1%)的领域自适应具有鲁棒性,显示出相对于 BERT 的显著准确性提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。