QUICK REVIEW

[论文解读] LOGAN: Latent Optimisation for Generative Adversarial Networks

Yan Wu, Jeff Donahue|arXiv (Cornell University)|Dec 2, 2019

Generative Adversarial Networks and Image Synthesis参考文献 48被引用 54

一句话总结

LOGAN 通过对输入 z 进行基于自然梯度的潜在变量优化来改进 GAN 训练，增强判别器与生成器的交互，并在不改变架构的情况下获得 ImageNet (128x128) 的最新结果。

ABSTRACT

Training generative adversarial networks requires balancing of delicate adversarial dynamics. Even with careful tuning, training may diverge or end up in a bad equilibrium with dropped modes. In this work, we improve CS-GAN with natural gradient-based latent optimisation and show that it improves adversarial dynamics by enhancing interactions between the discriminator and the generator. Our experiments demonstrate that latent optimisation can significantly improve GAN training, obtaining state-of-the-art performance for the ImageNet ($128 imes 128$) dataset. Our model achieves an Inception Score (IS) of $148$ and an Fréchet Inception Distance (FID) of $3.4$, an improvement of $17\%$ and $32\%$ in IS and FID respectively, compared with the baseline BigGAN-deep model with the same architecture and number of parameters.

研究动机与目标

在训练过程中通过优化潜在输入 z 来改善 GAN 训练中的对抗性动力学。
证明通过自然梯度下降 (NGD) 的潜在变量优化在大规模 GAN 上能获得更高的图像保真度和多样性。
提供理论洞见，阐明潜在变量优化如何影响 GANs 中的可微分博弈动力学。
展示 LOGAN 在不改变架构的情况下可超越最先进的 BigGAN-deep。
分析 LOGAN 与 Unrolled GANs 以及 Symplectic Gradient Adjustment (SGA) 之间的关系。

提出的方法

使用潜在变量优化步骤，通过对 z 的生成器损失梯度来更新 z。
用自然梯度下降替代标准梯度下降以计算潜在更新 Δz (NGD)，使 Δz = α g/(β + ||g||^2)，其中 g = ∂f(z)/∂z。
对潜在优化进行反向传播以获得耦合 D 与 G 动态的二阶项。
用 z 正则化项 Rz 对潜在更新进行正则化，并在保持部分元素随机的同时可选地优化 z 的一部分 c。
在中等规模的 DCGAN/SN-GAN 和大规模的 BigGAN-deep 上对 ImageNet (128x128) 进行有/无截断曲线的评估。
使用 FID 和 IS 指标，与基线 BigGAN-deep 以及 LOGAN 的变体（GD 和 NGD）进行比较。

实验结果

研究问题

RQ1通过自然梯度下降对潜在变量 z 进行潜在变量优化，是否能改善大规模模型的 GAN 训练动力学和样本质量？
RQ2就 FID 和 IS 而言，LOGAN 相较于基线 BigGAN-deep 及通过梯度下降（GD）进行的潜在变量优化有何比较？
RQ3LOGAN、SGA 与 Unrolled GANs 之间存在哪些理论联系，这些联系如何揭示对抗性训练的动力学？
RQ4将 LOGAN 扩展到 ImageNet 规模生成时，实际考虑因素（超参数、正则化、评估）有哪些？

主要发现

模型	FID	IS
BigGAN-deep	5.7±0.3	124.5±2.0
baseline	4.92±0.05	126.6±1.3
LOGAN (GD)	4.86±0.09	127.7±3.5
LOGAN (NGD)	3.36±0.14	148.2±3.1

LOGAN 采用 NGD 在 ImageNet 128x128 上相对于基线 BigGAN-deep 取得显著提升，FID 3.36±0.14，IS 148.2±3.1。
相比 BigGAN-deep，LOGAN-NGD 的 FID 下降约32%，IS 提高约17%。
LOGAN-GD 的增益小于 LOGAN-NGD，强调 NGD 相对于简单的 z 梯度更新的优势。
通过 LOGAN 的潜在变量优化引入类似于 SGA 的二阶交互来改善训练动力学，同时避免对网络参数的完全展开。
对 z 进行正则化并对其部分更新（如 50-80% 的 z），配合合适的阻尼和 z-正则化项，可稳定训练并提升样本质量。
在消融研究中，若移除潜在导数项或使用 stop_gradient 将降低稳定性，证实了通过潜在优化向后传播二阶项的重要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。