QUICK REVIEW

[论文解读] Why Spectral Normalization Stabilizes GANs: Analysis and Improvements

Zinan Lin, Vyas Sekar|arXiv (Cornell University)|Sep 6, 2020

Adversarial Robustness in Machine Learning参考文献 39被引用 28

一句话总结

本文对生成对抗网络（GAN）中的谱归一化（SN）进行了理论分析，揭示其通过控制梯度爆炸和梯度消失来稳定训练过程。基于此见解，作者提出了双向缩放谱归一化（BSSN），通过融合Xavier和Kaiming权重初始化的原理，改进了梯度控制，从而在CIFAR10、STL10、CelebA和ImageNet上实现了比标准SN更优的生成样本质量和训练稳定性。

ABSTRACT

Spectral normalization (SN) is a widely-used technique for improving the stability and sample quality of Generative Adversarial Networks (GANs). However, there is currently limited understanding of why SN is effective. In this work, we show that SN controls two important failure modes of GAN training: exploding and vanishing gradients. Our proofs illustrate a (perhaps unintentional) connection with the successful LeCun initialization. This connection helps to explain why the most popular implementation of SN for GANs requires no hyper-parameter tuning, whereas stricter implementations of SN have poor empirical performance out-of-the-box. Unlike LeCun initialization which only controls gradient vanishing at the beginning of training, SN preserves this property throughout training. Building on this theoretical understanding, we propose a new spectral normalization technique: Bidirectional Scaled Spectral Normalization (BSSN), which incorporates insights from later improvements to LeCun initialization: Xavier initialization and Kaiming initialization. Theoretically, we show that BSSN gives better gradient control than SN. Empirically, we demonstrate that it outperforms SN in sample quality and training stability on several benchmark datasets.

研究动机与目标

理解谱归一化在稳定GAN训练方面成功的理论机制。
阐明为何流行的SN实现（Miyato et al., 2018）无需超参数调优，而更严格的变体则无法直接使用。
通过整合现代权重初始化技术（如Xavier和Kaiming初始化）的见解来改进SN。
开发并验证一种新归一化方法，以在整个训练过程中增强梯度控制。
通过实证方法证明所提方法在多个基准测试中均优于标准SN，表现在生成样本质量与训练稳定性方面。

提出的方法

理论分析表明，SN通过限制每一层的谱范数，从而控制判别器的Lipschitz常数，并在GAN训练中限制梯度爆炸。
本文建立了SN与LeCun初始化之间的联系，表明SN在整个训练过程中保持了梯度方差控制，而LeCun初始化仅在初始化阶段有效。
提出双向缩放谱归一化（BSSN），引入受Xavier初始化启发的双向归一化机制，以同时控制前向和反向传播中的梯度方差。
BSSN结合基于Kaiming初始化的缩放机制，进一步优化深层网络中的梯度动态。
该方法对生成器和判别器的权重均应用归一化，并采用自适应缩放策略，以在反向传播过程中维持稳定的梯度流动。
实验通过标准评估指标（如Inception Score和FID）在多个数据集上对比了BSSN与标准SN的性能。

实验结果

研究问题

RQ1为何谱归一化在理论理解有限的情况下仍能有效稳定GAN训练？
RQ2谱归一化在对抗训练过程中如何同时防止梯度爆炸和梯度消失？
RQ3为何广泛使用的SN实现（Miyato et al., 2018）无需超参数调优，而更严格的变体则需调优才能使用？
RQ4能否利用现代权重初始化技术（如Xavier和Kaiming）的见解来改进谱归一化？
RQ5一种能更好控制梯度方差的新归一化方法是否在实践中优于标准谱归一化？

主要发现

谱归一化通过限制网络层的谱范数，同时控制梯度爆炸和梯度消失，从而稳定训练动态。
标准SN实现（Miyato et al., 2018）的成功可归因于其隐式地与LeCun初始化对齐，从而在整个训练过程中保持梯度方差控制。
严格实现的SN在训练后期因梯度控制不佳而无法直接使用，而标准SN则能维持稳定性。
双向缩放谱归一化（BSSN）通过融合Xavier和Kaiming初始化的原理，实现了比SN更优的梯度控制。
在CIFAR10、STL10、CelebA和ImageNet上，BSSN的Inception Score更高，FID更低，表明其在生成样本质量和训练稳定性方面均优于标准SN。
最佳BSSN运行在ImageNet上实现了13.63的Inception Score和70.88的FID，优于最佳SN运行（13.04, 69.12），且显著优于未调优的BSSN（scale=1.0）的性能（2.07, 242.51）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。