Skip to main content
QUICK REVIEW

[论文解读] EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

Jason Wei, Kai Zou|arXiv (Cornell University)|Jan 31, 2019
Topic Modeling参考文献 33被引用 197
一句话总结

本文介绍了 EDA,一组简单的四种文本增强操作(同义词替换、随机插入、随机交换、随机删除),在不需要外部模型的情况下提升文本分类性能,尤其在小型数据集上。

ABSTRACT

We present EDA: easy data augmentation techniques for boosting performance on text classification tasks. EDA consists of four simple but powerful operations: synonym replacement, random insertion, random swap, and random deletion. On five text classification tasks, we show that EDA improves performance for both convolutional and recurrent neural networks. EDA demonstrates particularly strong results for smaller datasets; on average, across five datasets, training with EDA while using only 50% of the available training set achieved the same accuracy as normal training with all available data. We also performed extensive ablation studies and suggest parameters for practical use.

研究动机与目标

  • 激发在 NLP 中对简单、通用数据增强的需求。
  • 提出四种轻量级的增强操作,保持标签的一致性。
  • 在多数据集和多种模型架构上评估 EDA,以评估鲁棒性和实用性。
  • 确定在实际任务中使用 EDA 的实用参数设置和指南。

提出的方法

  • 定义四种增强操作:同义词替换、随机插入、随机交换和随机删除。
  • 将编辑量 n 按句子长度成比例变化,使用参数 alpha;将删除的概率 p 设置为等于 alpha。
  • 为每个原句生成 n_aug 个增强句子。
  • 在五个基准数据集上使用 CNN 和 RNN 架构、多个随机种子进行评估。
  • 进行消融研究以评估每个操作的贡献。
  • 基于结果提供实际使用建议。

实验结果

研究问题

  • RQ1简单的文本编辑增强是否在多个数据集和模型上改善文本分类性能?
  • RQ2在这四种增强操作中,哪些对性能提升贡献最大,以及在何种条件下?
  • RQ3增强程度和增强样本数量如何影响性能,特别是在小数据集与大数据集之间?
  • RQ4通过潜在空间分析,增强句子是否基本保留原始标签?

主要发现

训练集大小模型5002,0005,000完整集
500RNN75.383.786.187.4
500+EDA79.184.487.388.3
500CNN78.685.687.788.3
500+EDA80.786.488.388.8
AverageAverage76.984.686.987.8
Average+EDA79.985.487.888.6
  • EDA 在五个数据集上对 CNN 和 RNN 模型均提升了准确率。
  • 平均提升在完整数据集上为 0.8%,在最小子集(N_train=500)上为 3.0%。
  • 四个操作均有贡献;在 alpha 约为 0.1 时达到最佳平衡。
  • 更多的增强样本(n_aug)在小数据集上帮助更大,但在大数据集上收益递减。
  • 增强句子在很大程度上保留了其标签,如通过 t-SNE 可视化的潜在空间聚类所示。
  • 当训练数据有限时,EDA 最具价值,使模型在只有一半数据的情况下也能达到相当的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。