[论文解读] Large Scale Image Completion via Co-Modulated Generative Adversarial Networks
引入共调制GANs,联合使用条件与随机风格表示来实现高质量、多样性的大规模图像修复,并提出用于评估的感知指标(P-IDS/U-IDS)。
Numerous task-specific variants of conditional generative adversarial networks have been developed for image completion. Yet, a serious limitation remains that all existing algorithms tend to fail when handling large-scale missing regions. To overcome this challenge, we propose a generic new approach that bridges the gap between image-conditional and recent modulated unconditional generative architectures via co-modulation of both conditional and stochastic style representations. Also, due to the lack of good quantitative metrics for image completion, we propose the new Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS), which robustly measures the perceptual fidelity of inpainted images compared to real images via linear separability in a feature space. Experiments demonstrate superior performance in terms of both quality and diversity over state-of-the-art methods in free-form image completion and easy generalization to image-to-image translation. Code is available at https://github.com/zsyzzsoft/co-mod-gan.
研究动机与目标
- 桥接图像条件调制 GAN 与无条件调制 GAN 之间的差距,以处理大规模修复。
- 在条件信息有限的情况下,实现多样且一致的修复。
- 为图像完成中的感知保真度提供鲁棒的定量度量。
- 证明对图像到图像转换任务的泛化能力。
提出的方法
- 提出共调制:通过线性仿射映射,联合使用条件编码器输出和随机潜在风格来调制特征。
- 在图像条件生成器中利用无条件调制架构(StyleGAN2 风格),以保留随机性。
- 在训练中使用标准 GAN 损失且不添加额外的 L1 损失,以鼓励多样性和真实感。
- 引入 P-IDS/U-IDS:基于 Inception 特征空间的线性 SVM 的成对/非成对判别分数,用于测量感知保真度。
- 证明共调制在质量和多样性方面均有提升,尤其是在大缺失区域,并且便于实现图像到图像转换。
实验结果
研究问题
- RQ1共调制的 GAN 是否能够弥合图像条件与无条件生成器之间的差距,以处理大规模图像完成?
- RQ2共调制模型是否在没有额外监督的情况下提供经过校准的多样性和感知保真度?
- RQ3提出的 P-IDS/U-IDS 指标是否鲁棒、具可扩展性且与人类偏好相关?
- RQ4该方法是否能推广至超出修复的图像到图像转换任务?
主要发现
| 方法 | FFHQ P-IDS (%) | FFHQ U-IDS (%) | FFHQ FID | Places2 P-IDS (%) | Places2 U-IDS (%) | Places2 FID |
|---|---|---|---|---|---|---|
| RFR (official) | 0.0 pm 0.0 | 0.0 pm 0.0 | 48.7 pm 0.5 | 0.3 pm 0.0 | 4.6 pm 0.0 | 49.6 pm 0.2 |
| DeepFillv2 (official) | 0.0 pm 0.0 | 0.1 pm 0.0 | 83.5 pm 0.6 | 0.8 pm 0.0 | 8.4 pm 0.0 | 30.6 pm 0.2 |
| DeepFillv2 (retrained) | 0.9 pm 0.1 | 8.6 pm 0.2 | 17.4 pm 0.4 | 1.4 pm 0.0 | 11.4 pm 0.0 | 22.1 pm 0.1 |
| Ours | 16.6 pm 0.3 | 29.4 pm 0.3 | 3.7 pm 0.0 | 13.3 pm 0.1 | 27.4 pm 0.1 | 7.9 pm 0.0 |
- 与最先进方法相比,共调制 GAN 在自由形式图像完成中实现了更高的质量和多样性。
- 共调制保留随机性,即使在固定输入和掩码下也能产生多样化输出。
- P-IDS/U-IDS 指标在样本量较小的情况下也能收敛,并与人类偏好高度一致,在鲁棒性和敏感性方面优于 FID/KID。
- 该方法可推广至诸如边缘到照片以及 COCO-Stuff 标签到图像合成等图像到图像转换任务。
- 消融研究表明共调制优于普通的和纯条件调制,尤其在大缺失区域。
- 在 FFHQ 和 Places2 数据集上,该方法在 P-IDS/U-IDS 和 FID 两方面均取得有利的定量结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。