[论文解读] BAGAN: Data Augmentation with Balancing GAN
BAGAN 通过在所有类别上联合训练,结合自编码器初始化和潜在空间的类别条件,训练 GAN 以生成不平衡数据集中少数类别的图像,从而提高少数类别图像质量和最终分类器的准确性。
Image classification datasets are often imbalanced, characteristic that negatively affects the accuracy of deep-learning classifiers. In this work we propose balancing GAN (BAGAN) as an augmentation tool to restore balance in imbalanced datasets. This is challenging because the few minority-class images may not be enough to train a GAN. We overcome this issue by including during the adversarial training all available images of majority and minority classes. The generative model learns useful features from majority classes and uses these to generate images for minority classes. We apply class conditioning in the latent space to drive the generation process towards a target class. The generator in the GAN is initialized with the encoder module of an autoencoder that enables us to learn an accurate class-conditioning in the latent space. We compare the proposed methodology with state-of-the-art GANs and demonstrate that BAGAN generates images of superior quality when trained with an imbalanced dataset.
研究动机与目标
- 动机并解决不平衡的图像数据集对分类器性能的影响问题。
- 提出 BAGAN,通过利用多数类和少数类的所有可用数据来生成少数类别的图像。
- 用自编码器初始化 GAN,使其从稳定的解开始并学习潜在空间的类别条件。
- 驱动生成器产生目标类别的图像,同时避免模式崩溃并确保多样性。
- 在多个数据集上将 BAGAN 与最先进的 GAN 进行比较,以展示在图像质量和后续分类准确性方面的改进。
提出的方法
- 在所有训练图像(多数类和少数类)上训练自编码器,以学习无条件表示。
- 通过从自编码器(解码器到生成器,编码器到判别器)迁移权重来初始化 GAN,使对抗训练从接近良好解的初始点开始。
- 在潜在空间中用从每个类别的多元正态分布 N_c = N(mu_c, Sigma_c) 学到的 E(X_c) 中学习的类别条件潜在向量生成器来建模每个类别的条件。
- 训练一个单输出判别器,预测问题特定的类别标签 c 或假样本标签,并训练生成器产生匹配目标类别 c 的图像。
- 在对抗训练过程中,提供一个包含 1/(n+1) 个假图像的平衡批次;使用 Z_c 向量为每个类别 c 生成假图像。
- 将 BAGAN 与 ACGAN 和简单 GAN 进行比较,分析图像质量、多样性(SSIM)以及后续分类器准确性。
实验结果
研究问题
- RQ1在同时使用多数类和少数类且以自编码器初始化训练的 GAN,是否可以从不平衡数据中生成高质量的少数类别图像?
- RQ2在潜在空间中嵌入带有自编码器信息初始化的类别条件,是否能降低模式崩溃并提高少数类别生成的多样性?
- RQ3在图像质量、多样性以及不平衡数据集上的后续分类器性能方面,BAGAN 相对于 ACGAN 和简单 GAN 的表现如何?
主要发现
- 在各数据集上,BAGAN 通常比 ACGAN 和简单 GAN 产生更高质量的少数类别图像。
- 用在增强数据上训练的 ResNet-18 分类,对生成的少数类别图像的分类准确率更高,尤其在极度不平衡时。
- SSIM 分析显示,与 ACGAN 和简单 GAN 相比,BAGAN 生成的图像在多样性方面保持更大程度的多样性,接近真实图像的多样性。
- 在 GTSRB 上 BAGAN 在评估方法中达到最佳后续分类器准确性;在 MNIST、CIFAR-10 和 Flowers 数据集上,当涉及方向敏感特征时,BAGAN 常常能够匹配或超过其他数据增强方法。
- 在不平衡条件下 Simple GAN 常常坍缩为每个类别只有一个样本,而 BAGAN 通过其统一的类别条件和初始化避免了这种情况。
- 总体而言,BAGAN 在从不平衡数据集中生成少数类别图像方面优于最先进的 GAN,带来更高的分类器准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。