QUICK REVIEW

[論文レビュー] BAGAN: Data Augmentation with Balancing GAN

Giovanni Mariani, Florian Scheidegger|arXiv (Cornell University)|Mar 26, 2018

Advanced Neural Network Applications参考文献 22被引用数 258

ひとこと要約

BAGAN は、オートエンコーダ初期化と潜在空間クラス条件付けを用いて全クラスで同時訓練することにより、不均衡データセットのマイノリティクラス画像を生成する GAN を訓練し、マイノリティクラス画像の品質と最終的な分類器の精度を向上させる。

ABSTRACT

Image classification datasets are often imbalanced, characteristic that negatively affects the accuracy of deep-learning classifiers. In this work we propose balancing GAN (BAGAN) as an augmentation tool to restore balance in imbalanced datasets. This is challenging because the few minority-class images may not be enough to train a GAN. We overcome this issue by including during the adversarial training all available images of majority and minority classes. The generative model learns useful features from majority classes and uses these to generate images for minority classes. We apply class conditioning in the latent space to drive the generation process towards a target class. The generator in the GAN is initialized with the encoder module of an autoencoder that enables us to learn an accurate class-conditioning in the latent space. We compare the proposed methodology with state-of-the-art GANs and demonstrate that BAGAN generates images of superior quality when trained with an imbalanced dataset.

研究の動機と目的

クラス不均衡な画像データセットが分類性能を損なう問題を動機づけ、対処する。
多数クラスとマイノリティクラスのすべての利用可能なデータを活用してマイノリティクラスの画像を生成する BAGAN を提案する。
安定した解から開始し潜在空間のクラス条件付けを学習するために、オートエンコーダで GAN を初期化する。
モード崩壊を回避し多様性を確保しつつ、生成器にターゲットクラスの画像を生成させる。
複数のデータセットで最先端 GANs と比較して、画像品質と下流の分類精度の改善を示す BAGAN を評価する。

提案手法

多数クラスとマイノリティを含むすべての訓練画像でオートエンコーダを訓練し、無条件の表現を学習させる。
オートエンコーダからの重みを転送して GAN を初期化する（デコーダをジェネレータへ、エンコーダを識別器へ）良好な解に近い位置で敵対的訓練を開始する。
潜在空間における各クラスの条件付けを、E(X_c) から学習した per-class 多変量正規分布 N_c = N(mu_c, Sigma_c) から得られるクラス条件付き潜在ベクター生成器でモデル化する。
問題固有のクラスラベル c または偽ラベルのいずれかを予測する単一出力の識別器を訓練し、生成器をターゲットクラス c に対応する画像を生成するよう訓練する。
敵対的訓練中、偽画像を 1/(n+1) 枚含むバランスの取れたバッチを供給する；各クラス c の偽画像を生成するために Z_c ベクトルを使用する。
BAGAN を ACGAN と単純な GAN と比較し、品質、多様性（SSIM）、および下流の分類精度を分析する。

実験結果

リサーチクエスチョン

RQ1オートエンコーダ初期化で多数クラスとマイノリティクラスの両方で訓練された GAN は、不均衡データから高品質なマイノリティクラス画像を生成できるか。
RQ2オートエンコーダに基づく初期化で潜在空間にクラス条件付けを埋め込むことは、モード崩壊を減らしマイノリティクラス生成の多様性を向上させるか。
RQ3不均衡データセットにおける画像品質、多様性、および下流の分類器性能の観点で BAGAN は ACGAN および単純 GAN とどう比較されるか。

主な発見

BAGAN は一般に、データセット全体で ACGAN および単純 GAN よりも高品質なマイノリティクラス画像を生成する。
拡張データで訓練された ResNet-18 によって分類された場合、生成されたマイノリティクラス画像の精度が高くなる、特に強い不均衡下で顕著。
SSIM 分析は、BAGAN が生成画像の多様性を ACGAN および単純 GAN と比較してより維持し、実画像の多様性に近づいていることを示す。
GTSRB では BAGAN が評価された手法の中で最も良い下流分類精度を達成する；MNIST、CIFAR-10、Flowers では、方向依存の特徴が関与する場合、BAGAN はしばしば他の拡張法と同等かそれを上回る。
単純 GAN は不均衡条件下でしばしばクラスごとに1サンプルへ崩壊するが、BAGAN は統一されたクラス条件付けと初期化によりこれを回避する。
全体として BAGAN は不均衡データセットからマイノリティクラス画像を生成する際に最先端GANを上回り、分類器の精度向上につながる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。