Skip to main content
QUICK REVIEW

[论文解读] Augmenting Data with Mixup for Sentence Classification: An Empirical Study

Hongyu Guo, Yongyi Mao|arXiv (Cornell University)|May 22, 2019
Topic Modeling参考文献 10被引用 146
一句话总结

本论文将 Mixup 数据增强应用于自然语言处理,通过在词嵌入上进行插值(wordMixup)和在句子嵌入上进行插值(senMixup),在多项句子分类任务中展示了对 CNN 与 LSTM 的准确率提升。

ABSTRACT

Mixup, a recent proposed data augmentation method through linearly interpolating inputs and modeling targets of random samples, has demonstrated its capability of significantly improving the predictive accuracy of the state-of-the-art networks for image classification. However, how this technique can be applied to and what is its effectiveness on natural language processing (NLP) tasks have not been investigated. In this paper, we propose two strategies for the adaption of Mixup on sentence classification: one performs interpolation on word embeddings and another on sentence embeddings. We conduct experiments to evaluate our methods using several benchmark datasets. Our studies show that such interpolation strategies serve as an effective, domain independent data augmentation approach for sentence classification, and can result in significant accuracy improvement for both CNN and LSTM models.

研究动机与目标

  • 激励数据增强以应对 NLP 中的数据匮乏问题,而不依赖标签不变的文本变换。
  • 提出两种对句子的 Mixup 调整:嵌入空间的词级插值与隐藏表示的句子级插值。
  • 在标准 NLP 基准测试上的多种 CNN 和 LSTM 架构中对所提方法进行实证评估。
  • 评估 Mixup 是否作为跨域的句子分类正则化工具,并分析嵌入初始化和调优的影响。

提出的方法

  • 通过对输入和目标进行线性插值来调整 Mixup: - wordMixup 对句子中每个标记的词嵌入进行插值。 - senMixup 在由 CNN 或 LSTM 产生的最终隐藏层句子表示之间进行插值。 混合比 lambda 来自 Beta(alpha, alpha) 分布,alpha 默认为 1。 标签的混合形式为 y-tilde = lambda y_i + (1 - lambda) y_j。
  • 适用于标准的 CNN(Kim 2014)或带有最终 softmax/逻辑回归分类器的 LSTM。
  • 在四种嵌入设置下进行评估:RandomTune、RandomFix、PretrainTune、PretrainFix。
  • 使用 Adam 优化器训练;每次运行使用 20000 步;报告 10 次运行的平均准确率及标准差。
  • 使用十个基准数据集:TREC、MR、SST-1、SST-2、Subj;与基线 CNN/LSTM 及包含 wordMixup/senMixup 的变体进行比较。

实验结果

研究问题

  • RQ1Mixup 启发的插值是否可有效应用于自然语言句子分类任务?
  • RQ2词级和句子级 Mixup 是否在 CNN 与 LSTM 架构中提供正则化收益?
  • RQ3嵌入初始化与可调性(随机与预训练)如何影响 Mixup 的有效性?
  • RQ4在包括 SST-2 和 SST-1 的多个数据集上,性能提升是否具有一致性?
  • RQ5与传统 dropout/L2 惩罚相比,Mixup 对训练动态和正则化有何影响?

主要发现

  • WordMixup 和 senMixup 在 RandomTune 设置下对所有五个数据集的 CNN 性能均有提升,在 SST-1 和 MR 上尤其显著(相对提升超过 3%)。
  • 在 SST-2 上,若嵌入可训练,Mixup 的收益有限且有时可忽略;若固定嵌入,效果各异,可能中性或为负。
  • 使用 wordMixup/senMixup 的 LSTM 在若干数据集上也显示改进,且在 TREC 和 SST-1 上有显著提升(分别相对提升为 4.6% 和 5.2%)。
  • 在使用预训练嵌入并可调时,Mixup 变体通常保持或提升准确率(例如 SST-1、SST-2、MR)。
  • Mixup 作为正则化器的作用体现在训练损失在 Mixup 方法中保持为正值,而基线 CNN 未使用 Mixup 时损失快速下降。
  • 在各种设置中,Mixup 被描述为领域无关、成本低的数据增强,有助于缓解句子分类中的过拟合。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。