[论文解读] CIPS-3D: A 3D-Aware Generator of GANs Based on Conditionally-Independent Pixel Synthesis
CIPS-3D 引入了一种基于风格、具备3D感知的生成器,使用一个浅层的 NeRF 来处理3D 形状,深层 INR 来处理外观,逐像素独立渲染,在 FFHQ 上实现了最先进的3D感知图像质量。
The style-based GAN (StyleGAN) architecture achieved state-of-the-art results for generating high-quality images, but it lacks explicit and precise control over camera poses. The recently proposed NeRF-based GANs made great progress towards 3D-aware generators, but they are unable to generate high-quality images yet. This paper presents CIPS-3D, a style-based, 3D-aware generator that is composed of a shallow NeRF network and a deep implicit neural representation (INR) network. The generator synthesizes each pixel value independently without any spatial convolution or upsampling operation. In addition, we diagnose the problem of mirror symmetry that implies a suboptimal solution and solve it by introducing an auxiliary discriminator. Trained on raw, single-view images, CIPS-3D sets new records for 3D-aware image synthesis with an impressive FID of 6.97 for images at the $256 imes256$ resolution on FFHQ. We also demonstrate several interesting directions for CIPS-3D such as transfer learning and 3D-aware face stylization. The synthesis results are best viewed as videos, so we recommend the readers to check our github project at https://github.com/PeterouZh/CIPS-3D
研究动机与目标
- 在高保真3D感知图像合成中,激发对相机姿态的显式控制。
- 提出一个通过逐像素独立合成来避免上采样/卷积的生成器。
- 在内存效率(浅层 NeRF)与高容量外观建模(深层 INR)之间实现平衡。
- 通过辅助判别器解决3D感知 GAN 中的镜像对称性问题。
- 展示从 FFHQ 到其他领域的迁移学习与3D感知人脸风格化。
提出的方法
- 使用带有噪声条件的 Modulated SIREN 块的浅层 NeRF 网络来捕捉3D 形状。
- 用通过映射网络映射到 w_s 的形状码 z_s 对 NeRF 进行条件化,以进行特征调制。
- 让 NeRF 为每个点输出一个 3D 特征向量 v 和密度 sigma,通过体积渲染产生每像素特征。
- 使用深度 2D INR 网络独立地将每像素特征转换为 RGB 值(每像素独立、无空间上采样)。
- 引入可学习的位置编码以避免固定 PE 引起的镜像对称,并使用辅助判别器对 NeRF 输出进行正则化。
- 实现部分梯度反向传播,通过在每次迭代仅对子集光束使能梯度来高效训练高分辨率图像。
- 通过批量矩阵乘法(bmm)提供内存高效的 ModFC 实现以加速外观调制。
实验结果
研究问题
- RQ1混合生成器(浅层 NeRF + 深度 INR)是否能够在显式姿态控制下实现高质量的3D感知图像合成?
- RQ2辅助判别器是否能有效缓解 NeRF+INR 的3D感知 GAN 中的镜像对称性?
- RQ3在没有空间卷积或上采样的情况下,是否可以高效地训练高分辨率的3D感知 GAN?
- RQ4迁移学习在将 NeRF 形状知识迁移到新领域(微调外观)方面有多强?
- RQ5可学习与固定的位置编码在缓解对称性问题上的相对收益是什么?
主要发现
| Method | FID 256x256 ↓ | KID 256x256 ↓ | FID 1024x1024 ↓ | KID 1024x1024 ↓ |
|---|---|---|---|---|
| StyleGAN2 (2D baseline) | 4.30 | 1.07 | 2.86 | 0.53 |
| CIPS (3D-agnostic) | 23.06 | 23.04 | 10.03 | 4.79 |
| GIRAFFE | 63.33 | 50.94 | - | - |
| pi-GAN | 34.56 | 26.58 | 35.97 | 28.09 |
| StyleNeRF | 8.00† | 3.70† | - | - |
| CIPS-3D (ours) | 6.97 | 2.87 | 12.26 | 7.74 |
- CIPS-3D 在 FFHQ 的3D感知 GAN 中实现了最先进的 FID/KID,256x256 下为 6.97(2562)和 12.26(10242),KID 为 2.87(2562)和 7.74(10242)。
- 与 StyleNeRF 相比,即使参数更多,CIPS-3D 在 2562 分辨率下表现出更好的 FID/KID,而在更高分辨率下仍具有竞争力。
- 辅助判别器在消除因坐标对称性导致的来自基于 NeRF 的生成器的镜像对称性方面有效。
- 部分梯度反向传播使得在 512x512 分辨率下训练成为可能,通过减少内存使用同时保持对整张图像判别器的暴露。
- 迁移学习通过固定 NeRF(形状)网络、微调 INR(外观)来适应新领域(MetFaces、BitmojiFaces、CartoonFaces、AFHQ)是有效的。
- 在基础 FFHQ 模型与迁移模型之间进行插值可实现可控的3D感知风格化和领域混合。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。