Skip to main content
QUICK REVIEW

[论文解读] Unsupervised Data Augmentation

Qizhe Xie, Zihang Dai|arXiv (Cornell University)|Apr 29, 2019
Topic Modeling参考文献 18被引用 175
一句话总结

UDA 提出了一种半监督学习方法,通过数据增强对未标记数据进行处理,利用最先进的增强策略生成的真实噪声,强制原始未标记样本与增强后未标记样本之间的预测一致性。该方法在六个自然语言处理和三个视觉任务上取得了最先进性能,在仅使用少量标记数据的情况下,将 CIFAR-10 和 SVHN 的错误率降低了 30% 以上。

ABSTRACT

Despite its success, deep learning still needs large labeled datasets to succeed. Data augmentation has shown much promise in alleviating the need for more labeled data, but it so far has mostly been applied in supervised settings and achieved limited gains. In this work, we propose to apply data augmentation to unlabeled data in a semi-supervised learning setting. Our method, named Unsupervised Data Augmentation or UDA, encourages the model predictions to be consistent between an unlabeled example and an augmented unlabeled example. Unlike previous methods that use random noise such as Gaussian noise or dropout noise, UDA has a small twist in that it makes use of harder and more realistic noise generated by state-of-the-art data augmentation methods. This small twist leads to substantial improvements on six language tasks and three vision tasks even when the labeled set is extremely small. For example, on the IMDb text classification dataset, with only 20 labeled examples, UDA outperforms the state-of-the-art model trained on 25,000 labeled examples. On standard semi-supervised learning benchmarks, CIFAR-10 with 4,000 examples and SVHN with 1,000 examples, UDA outperforms all previous approaches and reduces more than $30\%$ of the error rates of state-of-the-art methods: going from 7.66% to 5.27% and from 3.53% to 2.46% respectively. UDA also works well on datasets that have a lot of labeled data. For example, on ImageNet, with 1.3M extra unlabeled data, UDA improves the top-1/top-5 accuracy from 78.28/94.36% to 79.04/94.45% when compared to AutoAugment.

研究动机与目标

  • 通过利用未标记数据进行数据增强,减少深度学习对大规模标记数据集的依赖。
  • 解决数据增强在无监督和半监督设置中效果有限的问题。
  • 通过强制原始未标记样本与增强后未标记样本之间的预测一致性,提升模型泛化能力。
  • 探究真实、强大的增强策略是否能在半监督训练中优于随机噪声。

提出的方法

  • UDA 对未标记样本应用数据增强,并强制原始版本与增强版本之间的模型预测保持一致。
  • 该方法使用最先进的数据增强策略(如 AutoAugment 或 Cutout)生成真实、非随机的噪声,而非高斯噪声或 Dropout 噪声。
  • 通过一致性正则化损失强制预测一致性,该损失最小化原始和增强未标记输入预测之间的 KL 散度。
  • 模型通过端到端方式使用标记数据(交叉熵损失)和未标记数据(一致性损失)进行训练,从而实现半监督学习。
  • UDA 以自训练方式应用,即利用增强未标记数据的预测结果来优化模型。
  • 该方法具有领域无关性,在视觉和语言任务中均表现有效,包括 ImageNet、CIFAR-10、SVHN 和 IMDb。

实验结果

研究问题

  • RQ1对未标记数据应用数据增强是否能显著提升半监督学习中的模型性能?
  • RQ2在一致性正则化中,使用真实、强大的增强策略是否优于随机噪声?
  • RQ3当标记数据极度有限(如文本分类中仅 20 个样本)时,UDA 的有效性如何?
  • RQ4在仅使用少量标记数据的情况下,UDA 是否能在 CIFAR-10 和 SVHN 等标准基准上达到最先进性能?
  • RQ5当存在大量未标记数据时,UDA 在大规模数据集(如 ImageNet)上是否具有良好的可扩展性?

主要发现

  • 在 IMDb 文本分类数据集上,UDA 仅使用 20 个标记样本即达到了最先进性能,优于使用 25,000 个标记样本训练的模型。
  • 在 CIFAR-10 上使用 4,000 个标记样本时,UDA 将错误率从 7.66% 降低至 5.27%,相对减少 31.1%。
  • 在 SVHN 上使用 1,000 个标记样本时,UDA 将错误率从 3.53% 降低至 2.46%,相对减少 30.3%。
  • 在 ImageNet 上,使用额外 130 万个未标记图像,UDA 将 top-1 准确率从 78.28% 提升至 79.04%,top-5 准确率从 94.36% 提升至 94.45%。
  • UDA 在所有测试的六个语言和三个视觉基准上均持续优于所有先前方法,展现出广泛的适用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。