QUICK REVIEW

[論文レビュー] LOGAN: Latent Optimisation for Generative Adversarial Networks

Yan Wu, Jeff Donahue|arXiv (Cornell University)|Dec 2, 2019

Generative Adversarial Networks and Image Synthesis参考文献 48被引用数 54

ひとこと要約

LOGANは入力 z の自然勾配に基づく潜在最適化を実施することでGAN訓練を改善し、識別器-生成器の相互作用を高め、アーキテクチャ変更なしでImageNet (128x128)で最先端の結果を達成します。

ABSTRACT

Training generative adversarial networks requires balancing of delicate adversarial dynamics. Even with careful tuning, training may diverge or end up in a bad equilibrium with dropped modes. In this work, we improve CS-GAN with natural gradient-based latent optimisation and show that it improves adversarial dynamics by enhancing interactions between the discriminator and the generator. Our experiments demonstrate that latent optimisation can significantly improve GAN training, obtaining state-of-the-art performance for the ImageNet ($128 imes 128$) dataset. Our model achieves an Inception Score (IS) of $148$ and an Fréchet Inception Distance (FID) of $3.4$, an improvement of $17\%$ and $32\%$ in IS and FID respectively, compared with the baseline BigGAN-deep model with the same architecture and number of parameters.

研究の動機と目的

訓練中に潜在入力 z を最適化することによって、GAN訓練における対立ダイナミクスを改善する。
自然勾配降下法 (NGD) を用いた潜在最適化が、大規模GANでより高い画像忠実度と多様性をもたらすことを実証する。
潜在最適化がGANの微分可能なゲームダイナミクスにどのように影響するかについて理論的洞察を提供する。
LOGANがアーキテクチャを変更せずに最新のBigGAN-deepを上回ることを示す。
LOGANとUnrolled GANsおよびSymplectic Gradient Adjustment (SGA) の関係を分析する。

提案手法

zに関する生成器損失の勾配を使って z を更新する潜在最適化ステップを用いる。
標準の勾配降下を自然勾配降下に置換して潜在更新 Δz (NGD) を算出し、Δz = α g/(β + ||g||^2) where g = ∂f(z)/∂z。
潜在最適化を介してバックプロパゲートし、DとGのダイナミクスを結びつける二次項を得る。
z-正則化項 Rz を用いて潜在更新を正則化し、必要に応じて z の一部を c だけ最適化し、他の要素をランダムのままにする。
ImageNet (128x128) 上の medium-scale DCGAN/SN-GAN および large-scale BigGAN-deep で、トランケーションカーブ有無で LOGAN を評価する。
FIDとIS指標を用いて、ベースラインの BigGAN-deep および LOGAN の派生形（GD と NGD）と比較する。

実験結果

リサーチクエスチョン

RQ1自然勾配降下法による潜在コード z の潜在最適化は、大規模モデルでGAN訓練ダイナミクスとサンプル品質を改善できるか？
RQ2FIDとISの観点で、LOGANは基礎となるBigGAN-deepおよび勾配降下法(GD)による潜在最適化とどう比較されるか？
RQ3LOGANとSGA、Unrolled GANsの間にどのような理論的つながりが存在し、これが対立的訓練のダイナミクスにどう影響するか？
RQ4ImageNet規模の生成へLOGANをスケールする際の実装上の考慮事項（ハイパーパラメータ、正則化、評価など）は何か？

主な発見

モデル	FID	IS
BigGAN-deep	5.7±0.3	124.5±2.0
baseline	4.92±0.05	126.6±1.3
LOGAN (GD)	4.86±0.09	127.7±3.5
LOGAN (NGD)	3.36±0.14	148.2±3.1

NGDを用いたLOGANはImageNet 128x128で基準のBigGAN-deepに対して顕著な改善を達成し、FID 3.36±0.14 および IS 148.2±3.1。
BigGAN-deepと比較して、LOGAN-NGDはFIDを約32%低減し、ISを約17%向上させる。
LOGAN-GDはLOGAN-NGDより小さな改善を示し、zに対する単純な勾配更新よりNGDの利点を強調している。
LOGANによる潜在最適化はSGAに類似した二次相互作用を導入して訓練ダイナミクスを改善する一方で、ネットワークパラメータの完全なアンロールを回避する。
適切な減衰と z-正則化子を用いた z の正則化および部分的更新（例: z の 50-80%）は訓練を安定化させ、サンプル品質を向上させる。
アブレーション研究では、潜在導関数項を除去するか stop_gradient を用いると安定性が低下し、潜在最適化を介して逆伝播される二次項の重要性を確認できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。