QUICK REVIEW

[論文レビュー] Mixed batches and symmetric discriminators for GAN training

Thomas W. Lucas, Corentin Tallec|arXiv (Cornell University)|Jun 19, 2018

Generative Adversarial Networks and Image Synthesis被引用数 25

ひとこと要約

本稿では、混合バッチと対称的ディスクライマーターを用いたGAN訓練手法を提案する。モード崩壊を是正するために、バッチ内の実サンプルと偽サンプルの比率を予測するようにディスクライマーターを訓練し、修正されたアーキテクチャによる順列不変性を強制することで、ディスクライマーターがグローバルな分布統計にアクセス可能となる。この手法により、CIFAR10およびCelebAにおいて、最先端のインceptionスコア（7.49）とフレシェインセプション距離（23.71）を達成し、モードカバレッジと生成品質が著しく向上した。

ABSTRACT

Generative adversarial networks (GANs) are pow- erful generative models based on providing feed- back to a generative network via a discriminator network. However, the discriminator usually as- sesses individual samples. This prevents the dis- criminator from accessing global distributional statistics of generated samples, and often leads to mode dropping: the generator models only part of the target distribution. We propose to feed the discriminator with mixed batches of true and fake samples, and train it to predict the ratio of true samples in the batch. The latter score does not depend on the order of samples in a batch. Rather than learning this invariance, we introduce a generic permutation-invariant discriminator ar- chitecture. This architecture is provably a uni- versal approximator of all symmetric functions. Experimentally, our approach reduces mode col- lapse in GANs on two synthetic datasets, and obtains good results on the CIFAR10 and CelebA datasets, both qualitatively and quantitatively.

研究の動機と目的

生成されたサンプルのグローバルな分布統計にディスクライマーターがアクセスできるようにすることで、GANにおけるモード崩壊を是正すること。
標準GANでは個々のサンプルの識別に依存するが、その場合、ターゲット分布における欠落モードを検出できないという限界を克服すること。
バッチ内のサンプル順序に依存しない、対称的関数を学習できるディスクライマーター・アーキテクチャを設計すること。
混合バッチによる訓練と対称的ディスクライマーターが、定性的および定量的にGAN性能を向上させることを実証的に検証すること。

提案手法

実サンプルと生成サンプルが混合されたバッチを用いてディスクライマーターを訓練し、バッチ内における実サンプルの比率を予測する目的とする。
McGregor（2007）の修正版に基づく順列不変なディスクライマーター・アーキテクチャを導入し、すべての対称的連続関数を普遍的に近似可能であることが証明されている。
バッチ要素に対する対称的集約層を用いることで、最小限の変更で既存のGANアーキテクチャに順列不変性を強制する。
バッチスムージングにハイパーパrameter γを導入し、バッチの純度を制御することで、訓練安定性とモードカバレッジのトレードオフを可能にする。
ジェネレータとディスクライマーターの更新を交互に繰り返す標準的なGANトレーニングループを採用し、ディスクライマーターは比率予測損失を最小化するように訓練する。
モデルアーキテクチャとハイパーパrameterを可能な限り維持したまま、BGANやM-BGANといった標準的なGANフレームワークに対称的ディスクライマーターを統合する。

実験結果

リサーチクエスチョン

RQ1実サンプルと偽サンプルが混合されたバッチでGANディスクライマーターを訓練することで、純粋なバッチと比較してモードカバレッジが向上するか？
RQ2順列不変なディスクライマーター・アーキテクチャは、バッチのすべての対称的関数を厳密に近似可能であり、グローバルな分布統計にアクセス可能であると証明できるか？
RQ3提案された対称的ディスクライマーター・アーキテクチャは、合成および実世界のデータセットにおいてGANのモード崩壊を低減するか？
RQ4バッチスムージングのハイパーパrameter γ は、訓練ダイナミクスとモデル性能にどのように影響するか？
RQ5本手法は、アーキテクチャの大幅な見直しを伴わず、CIFAR10およびCelebAで最先端のインセプションスコアとフレシェインセプション距離を達成できるか？

主な発見

混合バッチと対称的ディスクライマーターを用いた本手法は、CIFAR10でインセプションスコア7.49 ± 0.06、フレシェインセプション距離23.71を達成し、標準GANを上回り、最先端の手法と同等またはそれを上回る性能を示した。
合成マルチモーダルデータセットでは、本手法は多数のモードを正常に適合した一方、純粋なバッチを用いた標準GANはモード脱落により急速に発散した。
対称的ディスクライマーター・アーキテクチャは、すべての対称的連続関数を普遍的近似可能であることが証明され、バッチのグローバル統計が保持されることを保証した。
γ = 0.5でのバッチスムージングは訓練安定性と性能を向上させた。γ値が高いほどジェネレータが優位になり、低くなるとディスクライマーターが優位になる。
CelebAにおける定性的な結果では、混合バッチと対称的識別を用いたM-BGANで、サンプルの質と多様性が向上した。
インセプションスコアとFIDの両方において、本手法はバッチ識別（Salimans et al., 2016）および標準GANを上回り、あらゆる指標で一貫した向上を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。