Skip to main content
QUICK REVIEW

[论文解读] FreeLB: Enhanced Adversarial Training for Natural Language Understanding

Chen Zhu, Yu Cheng|arXiv (Cornell University)|Sep 25, 2019
Topic Modeling被引用 176
一句话总结

FreeLB 引入了一种基于梯度、成本低廉的对抗训练方法,该方法在词嵌入上进行扰动并在多次上升步中累积参数梯度,从而在泛化方面得到改进,并在若干NLP基准测试上达到最先进的成果。

ABSTRACT

Adversarial training, which minimizes the maximal risk for label-preserving input perturbations, has proved to be effective for improving the generalization of language models. In this work, we propose a novel adversarial training algorithm, FreeLB, that promotes higher invariance in the embedding space, by adding adversarial perturbations to word embeddings and minimizing the resultant adversarial risk inside different regions around input samples. To validate the effectiveness of the proposed approach, we apply it to Transformer-based models for natural language understanding and commonsense reasoning tasks. Experiments on the GLUE benchmark show that when applied only to the finetuning stage, it is able to improve the overall test scores of BERT-base model from 78.3 to 79.4, and RoBERTa-large model from 88.5 to 88.8. In addition, the proposed approach achieves state-of-the-art single-model test accuracies of 85.44\% and 67.75\% on ARC-Easy and ARC-Challenge. Experiments on CommonsenseQA benchmark further demonstrate that FreeLB can be generalized and boost the performance of RoBERTa-large model on other tasks as well. Code is available at \url{https://github.com/zhuchen03/FreeLB .

研究动机与目标

  • 通过对嵌入空间表示的鲁棒性来激励并改进大规模预训练语言模型的泛化能力。
  • 开发一种高效的对抗训练算法,利用无成本的大批量更新以降低训练开销。
  • 证明 FreeLB 的嵌入空间不变性与下游自然语言理解任务的性能提升相关。
  • 展示 FreeLB 在 GLUE、ARC 和 CommonsenseQA 基准测试上获得单模型的最先进结果。

提出的方法

  • 在嵌入空间中用范数受限的对抗扰动来扰动词/子词嵌入。
  • 使用基于多步 PGD 的上升过程,在原始嵌入和扰动后的嵌入之间的 epsilon-球交集内构造对抗扰动。
  • 从每一步上升中累积梯度,形成总参数更新,相当于在一个虚拟的批量大小为 K 的数据集上进行训练。
  • 在上升步骤之间始终复用 dropout 掩码,以稳定对抗更新。
  • 将 FreeLB 与 PGD 以及 FreeAT/YOPO 进行比较,突出其在嵌入空间中的鲁棒性和不变性更高。

实验结果

研究问题

  • RQ1与现有对抗训练方法相比,FreeLB 是否提高了基于变换器的模型在标准 NLP 基准上的泛化能力?
  • RQ2在上升步数和重复使用 dropout 掩码的情况下,鲁棒性和性能如何受到影响?
  • RQ3在单模型微调下,FreeLB 是否能够在 GLUE、ARC 和 CommonsenseQA 上达到最先进的结果?

主要发现

  • FreeLB 提升了 GLUE 得分,相对于基线将 RoBERTa-large 的总体 GLUE 分数从 88.5 提高到 88.8,BERT-base 从 78.3 提升到 79.4。
  • 在 ARC 上,FreeLB 微调将 ARC-Easy 的开发集准确率从 77.83 提升到 78.81,将 ARC-Challenge 的开发集准确率从 64.54 提升到 65.36(单模型)。
  • 与报道的领先方法相比,FreeLB 在 ARC-Easy 和 ARC-Challenge 上实现了单模型的最先进结果。
  • 在 CommonsenseQA 上,FreeLB 微调将开发集准确率从 77.56 提升到 78.81,测试集结果达到 72.2%(单模型)和 73.1%(20 模型集成)。
  • FreeLB 显示出稳健的嵌入空间不变性,并在输入附近相较于使用原生或 PGD 训练的模型具有较小的最大损失增加,覆盖 RTE、CoLA 和 MRPC 数据集。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。