Skip to main content
QUICK REVIEW

[论文解读] Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis

Bingchen Liu, Yizhe Zhu|arXiv (Cornell University)|Jan 12, 2021
Generative Adversarial Networks and Image Synthesis参考文献 53被引用 109
一句话总结

论文引入了一个轻量级GAN,带有 Skip-Layer Channel-wise Excitation (SLE) 模块,以及作为特征编码器自监督训练的判别器,使从少量数据在有限硬件上从头训练实现高保真1024×1024图像合成。

ABSTRACT

Training Generative Adversarial Networks (GAN) on high-fidelity images usually requires large-scale GPU-clusters and a vast number of training images. In this paper, we study the few-shot image synthesis task for GAN with minimum computing cost. We propose a light-weight GAN structure that gains superior quality on 1024*1024 resolution. Notably, the model converges from scratch with just a few hours of training on a single RTX-2080 GPU, and has a consistent performance, even with less than 100 training samples. Two technique designs constitute our work, a skip-layer channel-wise excitation module and a self-supervised discriminator trained as a feature-encoder. With thirteen datasets covering a wide variety of image domains (The datasets and code are available at: https://github.com/odegeasslbc/FastGAN-pytorch), we show our model's superior performance compared to the state-of-the-art StyleGAN2, when data and computing budget are limited.

研究动机与目标

  • 旨在在数据有限和计算资源有限的条件下训练用于高分辨率图像的无条件GAN。
  • 开发一个轻量级的生成器-判别器架构,能够在单个GPU上从头收敛。
  • 在少量数据条件下改善训练稳定性和合成质量。
  • 通过架构设计实现类似StyleGAN的自动风格-内容分离。

提出的方法

  • 引入 Skip-Layer Channel-wise Excitation (SLE),使用低分辨率激活重新校准高分辨率特征图。
  • 使SLE跨分辨率工作,具备长程跳跃连接和通道门控,以改善梯度传递。
  • 添加自监督判别器,作为特征编码器训练,配备解码器重建真实图像特征,使用重建损失对D进行正则化。
  • 使用 hinge 对抗损失训练GAN,并为D加入一个轻量级自编码重建目标。
  • 与 StyleGAN2 和一个强基线(来自 DCGAN 的派生)进行比较,聚焦于少样本和高分辨率设置。
  • 在 13 个多样化数据集上评估,分辨率高达 1024×1024,使用 FID 和 LPIPS 作为评价指标。

实验结果

研究问题

  • RQ1一个紧凑的GAN在有限数据和较小的计算预算下,是否能够实现高保真1024×1024的合成?
  • RQ2跨分辨率的跳跃连接(SLE)和自监督判别器训练是否能改善训练稳定性并减少模式塌陷?
  • RQ3在少样本和小数据条件下,所提技术与 StyleGAN2 及强基线相比有何差异?
  • RQ4通过自监督正则化判别器在不妨碍对抗训练的前提下,能在多大程度上帮助生成器?

主要发现

  • 在有限数据和计算条件下,该模型对比最先进的 StyleGAN2 在多数据集上的合成质量具有优势。
  • SLE 提升梯度流且实现自动的内容–风格分离,有助于更快收敛。
  • 自监督的 D,特别是自编码,提供最大的性能提升,并在对抗训练中对抗模式塌陷的稳定性。
  • 该方法在高分辨率(1024×1024)和小数据集上仍然健壮,通常在单个GPU上仅需数小时训练即可。
  • 定性与定量结果表明,我们的模型在许多少样本数据集上超越基线,并在 StyleGAN2 可能收敛失效的情形下保持稳定。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。