[论文解读] Dataset Condensation with Differentiable Siamese Augmentation
本文提出 Differentiable Siamese Augmentation (DSA),用于学习小型合成训练集,当与数据增强一起训练时,接近使用完整数据训练的模型性能,在若干基准上优于此前方法。
In many machine learning problems, large-scale datasets have become the de-facto standard to train state-of-the-art deep networks at the price of heavy computation load. In this paper, we focus on condensing large training sets into significantly smaller synthetic sets which can be used to train deep neural networks from scratch with minimum drop in performance. Inspired from the recent training set synthesis methods, we propose Differentiable Siamese Augmentation that enables effective use of data augmentation to synthesize more informative synthetic images and thus achieves better performance when training networks with augmentations. Experiments on multiple image classification benchmarks demonstrate that the proposed method obtains substantial gains over the state-of-the-art, 7% improvements on CIFAR10 and CIFAR100 datasets. We show with only less than 1% data that our method achieves 99.6%, 94.9%, 88.5%, 71.5% relative performance on MNIST, FashionMNIST, SVHN, CIFAR10 respectively. We also explore the use of our method in continual learning and neural architecture search, and show promising results.
研究动机与目标
- 通过学习紧凑的合成集合来激发在保持性能的同时减少训练数据规模。
- 在一个有原则性、可微分的框架中利用数据增强,将增强知识从真实数据迁移到合成数据。
- 开发一个从零开始共同优化合成数据和模型参数的训练过程。
- 展示该方法在多种架构和数据集上的可扩展性,并支持连续学习与神经架构搜索。
提出的方法
- 采用 Dataset Condensation (DC) 框架在真实数据与合成数据之间匹配梯度。
- 引入 Differentiable Siamese Augmentation (DSA),在一个小批量中对真实和合成数据都应用相同的可微分变换。
- 构建梯度匹配目标,最小化来自增强的真实数据和合成数据对网络参数的梯度之间的距离。
- 将可微分增强实现为层,以允许将增强参数的反向传播传播到合成数据。
- 使用带有随机初始化的外循环,确保在不同随机种子下从零开始训练学习得到的合成数据。
实验结果
研究问题
- RQ1通过梯度匹配学习的少量合成数据,在可微分的、Siamese 增强变换下,能否从零开始训练网络并达到具有竞争力的精度?
- RQ2Differentiable Siamese Augmentation (DSA) 是否在多数据集和多架构上持续优于以往的训练集凝缩方法?
- RQ3共享(Siamese)与独立增强对凝缩数据质量有何影响?
- RQ4在跨架构和跨数据集设置下,方法的表现如何?
主要发现
| 图像/类别 | 比例 % | 核心集选择 | 训练集成成 | 整数据集 | 随机 | 样本整合 | 遗忘 | DD † | LD † | DC | DSA | 注 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| MNIST | 1 | 0.017 | 64.9 ± 3.5 | 89.2 ± 1.6 | 60.9 ± 3.2 | 91.7 ± 0.5 | 88.7 ± 0.6 | 99.6 ± 0.0 | ||||
| MNIST | 10 | 0.17 | 95.1 ± 0.9 | 93.7 ± 0.3 | 68.1 ± 3.3 | 79.5 ± 8.1 | 87.3 ± 0.7 | 97.4 ± 0.2 | 97.8 ± 0.1 | |||
| MNIST | 50 | 0.83 | 97.9 ± 0.2 | 94.8 ± 0.2 | 88.2 ± 1.2 | - | 93.3 ± 0.3 | 98.8 ± 0.2 | 99.2 ± 0.1 | |||
| FashionMNIST | 1 | 0.017 | 51.4 ± 3.8 | 67.0 ± 1.9 | 42.0 ± 5.5 | - | - | 70.5 ± 0.6 | 70.6 ± 0.6 | 93.5 ± 0.1 | ||
| FashionMNIST | 10 | 0.17 | 73.8 ± 0.7 | 71.1 ± 0.7 | 53.9 ± 2.0 | - | - | 82.3 ± 0.4 | 84.6 ± 0.3 | - | ||
| FashionMNIST | 50 | 0.83 | 82.5 ± 0.7 | 71.9 ± 0.8 | 55.0 ± 1.1 | - | - | 83.6 ± 0.4 | 88.7 ± 0.2 | - | ||
| SVHN | 1 | 0.014 | 14.6 ± 1.6 | 20.9 ± 1.3 | 12.1 ± 1.7 | - | - | 31.2 ± 1.4 | 27.5 ± 1.4 | 95.4 ± 0.1 | ||
| SVHN | 10 | 0.14 | 35.1 ± 4.1 | 50.5 ± 3.3 | 16.8 ± 1.2 | - | - | 76.1 ± 0.6 | 79.2 ± 0.5 | - | ||
| SVHN | 50 | 0.7 | 70.9 ± 0.9 | 72.6 ± 0.8 | 27.2 ± 1.5 | - | - | 82.3 ± 0.3 | 84.4 ± 0.4 | - | ||
| CIFAR10 | 1 | 0.02 | 14.4 ± 2.0 | 21.5 ± 1.2 | 13.5 ± 1.2 | - | 25.7 ± 0.7 | 28.3 ± 0.5 | 28.8 ± 0.7 | 84.8 ± 0.1 | ||
| CIFAR10 | 10 | 0.2 | 26.0 ± 1.2 | 31.6 ± 0.7 | 23.3 ± 1.0 | 36.8 ± 1.2 | 38.3 ± 0.4 | 44.9 ± 0.5 | 52.1 ± 0.5 | - | ||
| CIFAR10 | 50 | 1 | 43.4 ± 1.0 | 40.4 ± 0.6 | 23.3 ± 1.1 | - | 42.5 ± 0.4 | 53.9 ± 0.5 | 60.6 ± 0.5 | - |
- DSA 在 CIFAR-10 和 CIFAR-100 上显著超越现有方法,在若干设定下实现约7%的绝对提升。
- 在极小数据情境下(例如不到1%的数据),DSA 达到较高的相对准确率(例如 MNIST 99.6% 与每类 50 张图片)。
- DSA 实现强跨架构泛化,卷积网络在向其他架构转移时表现最好。
- 消融研究表明 Siamese 增强(共享变换)始终优于非 Siamese 或独立增强方案,裁剪提供显著提升。
- 结合多种增强在各数据集上获得最佳性能,尽管某些增强在噪声较多的数据集(如 SVHN)上可能有负面影响。
- CIFAR-10/100 的结果表明,DSA 相对于以往方法(如 DC)在某些配置中提升了约7%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。