QUICK REVIEW

[论文解读] Few-Shot Adaptation of Generative Adversarial Networks

Esther Robb, Wen–Sheng Chu|arXiv (Cornell University)|Oct 22, 2020

Generative Adversarial Networks and Image Synthesis参考文献 38被引用 54

一句话总结

论文提出 Few-Shot GAN (FSGAN)，一种通过 SVD 将权重分解，并仅更新奇异值、固定奇异向量，将预训练的 GAN 适应到新领域的方法，利用极少量目标图像。

ABSTRACT

Generative Adversarial Networks (GANs) have shown remarkable performance in image synthesis tasks, but typically require a large number of training samples to achieve high-quality synthesis. This paper proposes a simple and effective method, Few-Shot GAN (FSGAN), for adapting GANs in few-shot settings (less than 100 images). FSGAN repurposes component analysis techniques and learns to adapt the singular values of the pre-trained weights while freezing the corresponding singular vectors. This provides a highly expressive parameter space for adaptation while constraining changes to the pretrained weights. We validate our method in a challenging few-shot setting of 5-100 images in the target domain. We show that our method has significant visual quality gains compared with existing GAN adaptation methods. We report qualitative and quantitative results showing the effectiveness of our method. We additionally highlight a problem for few-shot synthesis in the standard quantitative metric used by data-efficient image synthesis works. Code and additional results are available at http://e-271.github.io/few-shot-gan.

研究动机与目标

在极少标注数据（5–100 张图像）的域中激发并实现图像合成。
为适应预训练的 GANs 而开发一个受限但表达力强的参数空间，而无需完全微调。
证明基于 SVD 的权重自适应相比现有少样本方法能提供更高的质量与多样性。

提出的方法

对预训练生成器和判别器的权重应用奇异值分解（SVD），得到 (U0, Σ0, V0)。
冻结左/右奇异向量（U0, V0），优化奇异值 Σ 以适应目标域。
将 4D 卷积权重重塑为 2D 以进行 SVD，得到每层的 W0 = U0 Σ0 V0^T，在训练期间重构 WΣ = U0 Σ V0^T。
通过标准 GAN 目标函数训练，在有限步数内更新 Σ 以避免过拟合。
推断阶段使用截断（ψ = 0.8）以在保持质量的同时促进多样性。
论证对奇异值的自适应对应输出的语义显著变化。

实验结果

研究问题

RQ1极少样本的 GAN 适应是否能够在只有 5–100 张目标图像的情况下产生新颖且高质量的样本？
RQ2将适应限制在奇异值上是否比完全微调或按批统计自适应更好地平衡表达力与稳定性？
RQ3在近域和远域迁移方面，FSGAN 相较于现有少样本 GAN 适应方法在图像质量、多样性和稳定性方面有何差异？

主要发现

FSGAN 在极少样本情景下，在近域与远域任务上均实现比竞争方法更高的图像质量。
对顶部奇异值的变化会产生语义上有意义的输出变化，同时保持结构不变。
在非常低样本设置下，FID 可能具有误导性；需要定性度量和关注多样性的评估。
FSGAN 在 5–100-shot 设置下表现出鲁棒性，适应性行为优于 FreezeD 和 SSGAN 基线。
近域迁移（FFHQ→CelebA）在生成自然人脸时相对于基线减少伪影。
远域迁移（例如从照片到艺术）显示 FSGAN 产生更显著、连贯的语义变化，同时保持质量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。