QUICK REVIEW

[论文解读] Multi-Task Deep Neural Networks for Natural Language Understanding

Xiaodong Liu, Pengcheng He|arXiv (Cornell University)|Jan 31, 2019

Topic Modeling参考文献 34被引用 220

一句话总结

MT-DNN 将多任务学习与预训练 Transformer 编码器结合，以学习通用语言表示，在 GLUE 上达到最先进性能，并在 SNLI 和 SciTail 上实现领域自适应提升。

ABSTRACT

In this paper, we present a Multi-Task Deep Neural Network (MT-DNN) for learning representations across multiple natural language understanding (NLU) tasks. MT-DNN not only leverages large amounts of cross-task data, but also benefits from a regularization effect that leads to more general representations in order to adapt to new tasks and domains. MT-DNN extends the model proposed in Liu et al. (2015) by incorporating a pre-trained bidirectional transformer language model, known as BERT (Devlin et al., 2018). MT-DNN obtains new state-of-the-art results on ten NLU tasks, including SNLI, SciTail, and eight out of nine GLUE tasks, pushing the GLUE benchmark to 82.7% (2.2% absolute improvement). We also demonstrate using the SNLI and SciTail datasets that the representations learned by MT-DNN allow domain adaptation with substantially fewer in-domain labels than the pre-trained BERT representations. The code and pre-trained models are publicly available at https://github.com/namisan/mt-dnn.

研究动机与目标

利用多任务学习在相关 NLU 任务之间共享表示。
将基于预训练的 Transformer 编码器与多任务目标整合，以获得通用文本表示。
在 GLUE、SNLI 和 SciTail 基准上展示强劲性能。
在有限的域内带标签数据下展示改进的领域自适应。

提出的方法

使用一个共享的词汇表编码器和 Transformer 编码器，在任务之间产生上下文化表示。
将任务特定的输出模块（分类、相似度、排序）附加到共享编码器。
采用两阶段训练流程：预训练（掩码语言模型和 NSP）和跨 GLUE 任务的多任务微调。
为分类（交叉熵）、回归（均方误差）和排序（成对损失）采用任务特定的损失函数。
加入基于 SAN 的多步推理模块，用于成对文本分类任务（NLI）。
用多任务目标对初始化的共享层（BERT LARGE）进行微调，以获得 MT-DNN。

实验结果

研究问题

RQ1多任务学习如何在超出单任务模型的范围内提升对多样化 NLU 任务的泛化能力？
RQ2将多任务学习与如 BERT 之类的预训练语言模型结合，对 GLUE 任务的表现有何影响？
RQ3MT-DNN 是否能在极少量域内带标签数据的情况下实现有效的领域自适应？
RQ4哪些架构组件（如 SAN 模块、排序形式）对 NLI 与问答式任务的提升贡献最大？

主要发现

MT-DNN 在九个 GLUE 任务中的八个上实现了新的最先进结果，整体 GLUE 得分达到 82.7%。
MT-DNN 显著提升领域自适应：在使用 MT-DNN LARGE 的情况下，SNLI 达到 91.6%、SciTail 达到 95.0%（全量数据训练）。
MT-DNN 在域内数据有限的任务上持续优于 BERT，凸显多任务学习的正则化与迁移效应。
在不微调的情况下，MT-DNN 在大多数 GLUE 任务上仍然优于 BERT LARGE，CoLA 是例外，原因在于数据集的特性。
一个 ST-DNN 变体表明，任务特定输出模块和损失形式（如 QNLI 的排序）对超越 BERT 基线的提升至关重要。
MT-DNN 使极小标注数据集（0.1%–1%）的领域自适应具有鲁棒性，显示出相对于 BERT 的显著准确性提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。