[論文レビュー] Multi-Generator Generative Adversarial Nets
MGANは、分類器と識別器を備えた生成器の混合を用いて複数のデータモードをカバーし、モード崩壊を回避する。大規模データセットで最新のInceptionスコアを達成している。
We propose a new approach to train the Generative Adversarial Nets (GANs) with a mixture of generators to overcome the mode collapsing problem. The main intuition is to employ multiple generators, instead of using a single one as in the original GAN. The idea is simple, yet proven to be extremely effective at covering diverse data modes, easily overcoming the mode collapse and delivering state-of-the-art results. A minimax formulation is able to establish among a classifier, a discriminator, and a set of generators in a similar spirit with GAN. Generators create samples that are intended to come from the same distribution as the training data, whilst the discriminator determines whether samples are true data or generated by generators, and the classifier specifies which generator a sample comes from. The distinguishing feature is that internal samples are created from multiple generators, and then one of them will be randomly selected as final output similar to the mechanism of a probabilistic mixture model. We term our method Mixture GAN (MGAN). We develop theoretical analysis to prove that, at the equilibrium, the Jensen-Shannon divergence (JSD) between the mixture of generators' distributions and the empirical data distribution is minimal, whilst the JSD among generators' distributions is maximal, hence effectively avoiding the mode collapse. By utilizing parameter sharing, our proposed model adds minimal computational cost to the standard GAN, and thus can also efficiently scale to large-scale datasets. We conduct extensive experiments on synthetic 2D data and natural image databases (CIFAR-10, STL-10 and ImageNet) to demonstrate the superior performance of our MGAN in achieving state-of-the-art Inception scores over latest baselines, generating diverse and appealing recognizable objects at different resolutions, and specializing in capturing different types of objects by generators.
研究の動機と目的
- GANのモード崩壊を克服する動機。
- 多様なデータモードをカバーする生成器の混合を提案。
- データとモデルの間のJSDを最小化し、生成器間の発散を最大化する理論分析。
- 大規模データセットでスケールさせるためのパラメータ共有による効率的な訓練。
- 合成データと実データ画像データセット(CIFAR-10、STL-10、ImageNet)での実証評価。
提案手法
- MGANをK個の生成器、識別器、分類器のミニマックスゲームとして定式化。
- 出力は混合サンプル:u ~ Mult(pi) で G_u(z) を選択。
- 目的には標準的なGAN項に加え、多様性項 -beta sum_k pi_k E_{x~P_{G_k}}[log C_k(x)] を含む。
- コストを削減するために生成器間および識別器と分類器間でパラメータを共有。
- 収束に非飽和GANトレーニングと固定混合重み pi(通常は一様)を使用。
- 最適な C*, D* および G* がデータ-モデルの分散を最小化しつつ、生成器の多様性を最大化することを示す理論的結果を提供。
実験結果
リサーチクエスチョン
- RQ1分類器を備えた生成器の混合は、複数のデータモードを効果的にカバーし、モード崩壊を回避できるか?
- RQ2MGANの目的関数を最適化すると、データとモデル間のJensen-Shannon発散を最小化しつつ、生成器間の発散を最大化できるか?
- RQ3パラメータ共有は、大規模データセットにも対する多生成器MGANを現実的なコストでスケールさせるのに十分か?
- RQ4MGANはCIFAR-10、STL-10、ImageNetで、単一生成器のGANや他の多生成器アプローチと比べて定量的指標(Inceptionスコア)で優れた成果を示すか?
主な発見
| モデル | CIFAR-10 | STL-10 | ImageNet |
|---|---|---|---|
| 実データ | 11.24 ± 0.16 | 26.08 ± 0.26 | 25.78 ± 0.47 |
| WGAN (Arjovsky et al., 2017) | 3.82 ± 0.06 | – | – |
| MIX+WGAN (Arora et al., 2017) | 4.04 ± 0.07 | – | – |
| Improved-GAN (Salimans et al., 2016) | 4.36 ± 0.04 | – | – |
| ALI (Dumoulin et al., 2016) | 5.34 ± 0.05 | – | – |
| BEGAN (Berthelot et al., 2017) | 5.62 | – | – |
| MAGAN (Wang et al., 2017) | 5.67 | – | – |
| GMAN (Durugkar et al., 2016) | 6.00 ± 0.19 | – | – |
| DCGAN (Radford et al., 2015) | 6.40 ± 0.05 | 7.54 | 7.89 |
| DFM (Warde-Farley & Bengio, 2016) | 7.72 ± 0.13 | 8.51 ± 0.13 | 9.18 ± 0.13 |
| D2GAN (Nguyen et al., 2017) | 7.15 ± 0.07 | 7.98 | 8.25 |
| MGAN | 8.33 ± 0.10 | 9.22 ± 0.11 | 9.32 ± 0.10 |
- MGANは、CIFAR-10で8.33 ± 0.10、STL-10で9.22 ± 0.11、ImageNetで9.32 ± 0.10の最新Inceptionスコアを、教師なし訓練で達成。
- 各生成器は異なるデータモードからサンプルを生成するよう特化し、多様な物体タイプを効果的にカバーする。
- 理論的結果は、データと混合モデル間のJSDを最小化し、生成器間のJSDを最大化する平衡を示す。
- 生成器間および識別器と分類器間のパラメータ共有は、追加コストを最小限に抑えつつ効率とスケーラビリティを向上させる。
- MGANは合成データでの収束をより速く安定させ、実世界データセットにもスケールし、強力な定性的および定量的成果を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。