QUICK REVIEW

[論文レビュー] Gang of GANs: Generative Adversarial Networks with Maximum Margin Ranking

Felix Juefei-Xu, Vishnu Naresh Boddeti|arXiv (Cornell University)|Apr 17, 2017

Generative Adversarial Networks and Image Synthesis参考文献 31被引用数 22

ひとこと要約

本稿では、生成対抗ネットワーク（GAN）の性能を向上させるために、Wasserstein GAN（WGAN）に最大マージン順位付け損失を導入したプログレッシブトレーニングフレームワーク「Gang of GANs（GoGAN）」を提案する。この手法により、本物データと生成データの分布のギャップが半減以上に縮小され、CelebA、LSUN Bedroom、CIFAR-10、およびワンショット顔データセットにおいて、画像補完評価指標を用いて最先端の性能を達成した。

ABSTRACT

Traditional generative adversarial networks (GAN) and many of its variants are trained by minimizing the KL or JS-divergence loss that measures how close the generated data distribution is from the true data distribution. A recent advance called the WGAN based on Wasserstein distance can improve on the KL and JS-divergence based GANs, and alleviate the gradient vanishing, instability, and mode collapse issues that are common in the GAN training. In this work, we aim at improving on the WGAN by first generalizing its discriminator loss to a margin-based one, which leads to a better discriminator, and in turn a better generator, and then carrying out a progressive training paradigm involving multiple GANs to contribute to the maximum margin ranking loss so that the GAN at later stages will improve upon early stages. We call this method Gang of GANs (GoGAN). We have shown theoretically that the proposed GoGAN can reduce the gap between the true data distribution and the generated data distribution by at least half in an optimally trained WGAN. We have also proposed a new way of measuring GAN quality which is based on image completion tasks. We have evaluated our method on four visual datasets: CelebA, LSUN Bedroom, CIFAR-10, and 50K-SSFF, and have seen both visual and quantitative improvement over baseline WGAN.

研究の動機と目的

従来のGANおよびWGANの限界を克服するため、最大マージン順位付け基準を用いてディスクラミネーターを強化することで、GANの性能を向上させること。
後続のGANが以前のモデルの知識を活用する共有マージンに基づく損失関数を用いるプログレッシブトレーニングの枠組みを構築し、全体的な生成器の品質を向上させること。
最適に訓練されたWGANにおいて、GoGANが本物と生成データの分布ギャップを少なくとも半分に削減できることを理論的に保証すること。
画像補完性能に基づく新しいGAN品質評価指標を導入し、FIDやインセプションスコアといった標準指標よりも意味のある評価を可能にすること。

提案手法

WGANのディスクラミネーター損失をマージンに基づくハーフ損失に一般化し、特徴空間における本物と生成サンプルの間隔を拡大する。
複数のGANを逐次的に訓練するプログレッシブトレーニング戦略を導入し、後続のモデルが以前のモデルの知識を共有マージン順位付けを通じて活用できるようにする。
各段階で、前の生成器の出力を用いてディスクラミネーターのマージンに基づく損失を精緻化するマルチステージトレーニングプロセスを採用する。
可学習または固定のマージンを有する修正されたハーフ損失を用い、本物と偽物のサンプル間のマージンを拡大することで、ディスクラミネーターのロバスト性を向上させる。
一貫性を保つために、すべての実験で同一のDCGANアーキテクチャを採用し、1000エポック以上、バッチサイズ64で学習を実施する。
生成器の忠実性と一般化性能を評価する新しい評価プロトコルとして、25%および49%の欠損を想定した画像補完を提案する。

実験結果

リサーチクエスチョン

RQ1マージンに基づくディスクラミネーター損失は、WGANを上回る一般化性能と安定性をGANにもたらすか？
RQ2複数のGANを統合するプログレッシブトレーニングの枠組みは、単一段階のトレーニングに比べて生成器性能を向上させるか？
RQ3提案されたGoGANフレームワークは、理論的に本物と生成データの分布ギャップを少なくとも半分に縮小できるか？
RQ4欠損を想定した画像補完は、FIDやインセプションスコアといった標準指標よりも、GANの品質評価においてより効果的で意味のある指標となるか？

主な発見

49%の欠損条件下で、GoGANは50K-SSFFデータセットにおいて25.71のPSNRと0.5963のSSIMを達成し、WGANの21.24のPSNRと0.5725のSSIMを上回った。
ステージ2のGoGANは、49%の欠損条件下で0.7966のSSIMと25.71のPSNRを達成し、ステージ1のGoGANおよびWGANを一貫して上回った。
最適なトレーニング条件下で、本物と生成データの分布ギャップが理論的に半分以下に縮小された。
画像補完の結果から、GoGANが生成する画像は、特に高い欠損条件下でもより意味的に整合性があり、詳細が豊かであることが示された。
プログレッシブトレーニングの枠組みにより、すべてのデータセットでSSIMおよびPSNRに顕著な向上が見られ、段階的精錬の有効性が裏付けられた。
提案された画像補完に基づく評価手法により、生成器の品質における微細な差が明らかになり、GoGANの構造的および意味的整合性の優位性が浮き彫りになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。