[论文解读] Multi-Task Deep Neural Networks for Natural Language Understanding
MT-DNN 将多任务学习与预训练 Transformer 编码器结合,以学习通用语言表示,在 GLUE 上达到最先进性能,并在 SNLI 和 SciTail 上实现领域自适应提升。
In this paper, we present a Multi-Task Deep Neural Network (MT-DNN) for learning representations across multiple natural language understanding (NLU) tasks. MT-DNN not only leverages large amounts of cross-task data, but also benefits from a regularization effect that leads to more general representations in order to adapt to new tasks and domains. MT-DNN extends the model proposed in Liu et al. (2015) by incorporating a pre-trained bidirectional transformer language model, known as BERT (Devlin et al., 2018). MT-DNN obtains new state-of-the-art results on ten NLU tasks, including SNLI, SciTail, and eight out of nine GLUE tasks, pushing the GLUE benchmark to 82.7% (2.2% absolute improvement). We also demonstrate using the SNLI and SciTail datasets that the representations learned by MT-DNN allow domain adaptation with substantially fewer in-domain labels than the pre-trained BERT representations. The code and pre-trained models are publicly available at https://github.com/namisan/mt-dnn.
研究动机与目标
- 利用多任务学习在相关 NLU 任务之间共享表示。
- 将基于预训练的 Transformer 编码器与多任务目标整合,以获得通用文本表示。
- 在 GLUE、SNLI 和 SciTail 基准上展示强劲性能。
- 在有限的域内带标签数据下展示改进的领域自适应。
提出的方法
- 使用一个共享的词汇表编码器和 Transformer 编码器,在任务之间产生上下文化表示。
- 将任务特定的输出模块(分类、相似度、排序)附加到共享编码器。
- 采用两阶段训练流程:预训练(掩码语言模型和 NSP)和跨 GLUE 任务的多任务微调。
- 为分类(交叉熵)、回归(均方误差)和排序(成对损失)采用任务特定的损失函数。
- 加入基于 SAN 的多步推理模块,用于成对文本分类任务(NLI)。
- 用多任务目标对初始化的共享层(BERT LARGE)进行微调,以获得 MT-DNN。
实验结果
研究问题
- RQ1多任务学习如何在超出单任务模型的范围内提升对多样化 NLU 任务的泛化能力?
- RQ2将多任务学习与如 BERT 之类的预训练语言模型结合,对 GLUE 任务的表现有何影响?
- RQ3MT-DNN 是否能在极少量域内带标签数据的情况下实现有效的领域自适应?
- RQ4哪些架构组件(如 SAN 模块、排序形式)对 NLI 与问答式任务的提升贡献最大?
主要发现
- MT-DNN 在九个 GLUE 任务中的八个上实现了新的最先进结果,整体 GLUE 得分达到 82.7%。
- MT-DNN 显著提升领域自适应:在使用 MT-DNN LARGE 的情况下,SNLI 达到 91.6%、SciTail 达到 95.0%(全量数据训练)。
- MT-DNN 在域内数据有限的任务上持续优于 BERT,凸显多任务学习的正则化与迁移效应。
- 在不微调的情况下,MT-DNN 在大多数 GLUE 任务上仍然优于 BERT LARGE,CoLA 是例外,原因在于数据集的特性。
- 一个 ST-DNN 变体表明,任务特定输出模块和损失形式(如 QNLI 的排序)对超越 BERT 基线的提升至关重要。
- MT-DNN 使极小标注数据集(0.1%–1%)的领域自适应具有鲁棒性,显示出相对于 BERT 的显著准确性提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。