Skip to main content
QUICK REVIEW

[论文解读] A Simple but Tough-to-Beat Data Augmentation Approach for Natural Language Understanding and Generation

Dinghan Shen, Mingzhi Zheng|arXiv (Cornell University)|Sep 29, 2020
Topic Modeling参考文献 45被引用 94
一句话总结

本文提出 Cutoff,一种简单的数据增强方法,通过抹除输入嵌入的一部分来创建部分视图,并结合 Jensen-Shannon 散度一致性损失,在 GLUE 与机器翻译任务上实现具竞争力甚至处于SOTA,且开销低于对抗性训练。

ABSTRACT

Adversarial training has been shown effective at endowing the learned representations with stronger generalization ability. However, it typically requires expensive computation to determine the direction of the injected perturbations. In this paper, we introduce a set of simple yet effective data augmentation strategies dubbed cutoff, where part of the information within an input sentence is erased to yield its restricted views (during the fine-tuning stage). Notably, this process relies merely on stochastic sampling and thus adds little computational overhead. A Jensen-Shannon Divergence consistency loss is further utilized to incorporate these augmented samples into the training objective in a principled manner. To verify the effectiveness of the proposed strategies, we apply cutoff to both natural language understanding and generation problems. On the GLUE benchmark, it is demonstrated that cutoff, in spite of its simplicity, performs on par or better than several competitive adversarial-based approaches. We further extend cutoff to machine translation and observe significant gains in BLEU scores (based upon the Transformer Base model). Moreover, cutoff consistently outperforms adversarial training and achieves state-of-the-art results on the IWSLT2014 German-English dataset.

研究动机与目标

  • 在不承受高昂计算成本的前提下,通过提升泛化能力来推动对大型预训练语言模型的稳健微调。
  • 开发在输入嵌入层面抹去信息的简单、结构化的增强策略。
  • 通过一个有原则的一致性目标将增强样本整合,以改善跨视图的预测。
  • 在自然语言理解基准和机器翻译任务上展示有效性。

提出的方法

  • 提出 Cutoff 通过抹除来创建部分视图:token cutoff(将标记嵌入置零)、feature cutoff(将嵌入维度置零)、span cutoff(将一个连续跨度置零)。
  • 使用 Jensen-Shannon 散度一致性损失对原始视图及多个增强视图的预测进行对齐。
  • 在训练目标中将增强样本的交叉熵损失与 JS-divergence 项结合。
  • 将该方法扩展到条件文本生成,通过同时增强输入和输出。
  • 与对抗性训练相比,比较计算开销,强调所需反向传播较少。

实验结果

研究问题

  • RQ1相较于对抗方法及其他数据增强技术,Cutoff 增强是否能提升 NLU 任务的泛化能力?
  • RQ2Cutoff 能否有效扩展到神经机器翻译并获得最先进结果?
  • RQ3不同 cutoff 类型及增强强度对性能有何影响?
  • RQ4引入 JS 散度一致性损失是否在标准 CE 损失之上带来额外提升?
  • RQ5Cutoff 在计算效率上是否比典型的对抗性训练更高?

主要发现

  • Cutoff 变体在 GLUE dev 集上对 RoBERTa-base 和 RoBERTa-large 基线的一致性表现普遍优于 ALUM。
  • Span cutoff 往往在所有 GLUE 任务中实现最强性能。
  • 在机器翻译中,结合 JS 损失的 Cutoff 在 WMT14 English-German 和 IWSLT2014 German-English 上获得的 BLEU 分数高于若干对抗基线。
  • 在 Cutoff 变体中,token cutoff 在 WMT14 English-German 上实现了最佳 BLEU;结合 JS 损失,整体 BLEU 进一步提升。
  • JS 散度损失通常提升 MNLI dev 精度,消融实验中 beta 约为 1.0 时效果最佳。
  • Cutoff 不需要额外的反向传播,且仅引入适度的前向时开销,使其比许多对抗方法更高效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。