[论文解读] Efficient Geometry-aware 3D Generative Adversarial Networks
本论文提出一种快速的几何感知3D GAN,使用混合三平面表示和姿态条件、双判别器训练,从二维图像生成高分辨率、具多视图一致性的3D感知图像与3D形状。它在FFHQ和AFHQ Cats上实现了 state-of-the-art,并在高分辨率下实现实时渲染。
Unsupervised generation of high-quality multi-view-consistent images and 3D shapes using only collections of single-view 2D photographs has been a long-standing challenge. Existing 3D GANs are either compute-intensive or make approximations that are not 3D-consistent; the former limits quality and resolution of the generated images and the latter adversely affects multi-view consistency and shape quality. In this work, we improve the computational efficiency and image quality of 3D GANs without overly relying on these approximations. We introduce an expressive hybrid explicit-implicit network architecture that, together with other design choices, synthesizes not only high-resolution multi-view-consistent images in real time but also produces high-quality 3D geometry. By decoupling feature generation and neural rendering, our framework is able to leverage state-of-the-art 2D CNN generators, such as StyleGAN2, and inherit their efficiency and expressiveness. We demonstrate state-of-the-art 3D-aware synthesis with FFHQ and AFHQ Cats, among other experiments.
研究动机与目标
- 推动从二维图像集合中进行无监督、高质量的3D感知图像和3D形状生成。
- 开发一个可扩展的3D表示,平衡表达能力与效率。
- 在利用像 StyleGAN2 这样的强大2D CNN生成器的同时,实现多视图一致性。
- 将特征生成与神经渲染解耦,以提高对3D场景的泛化能力。
- 建模姿态相关属性,在忠实再现训练数据的同时实现推断的一致性。
提出的方法
- 引入一个三平面混合显式–隐式的3D表示,将特征存储在三个正交平面上,并通过轻量级MLP解码密度与颜色。
- 使用基于StyleGAN2的骨干网络生成三平面特征,从而在不使用3D卷积的情况下实现高质量的3D感知输出。
- 通过神经体积渲染在中等分辨率下进行渲染,随后使用专门的超分辨率模块生成最终的高分辨率RGB图像。
- 应用双重判别:(i) 强制低分辨率神经渲染与上采样输出之间的一致性,(ii) 将判别器条件化于相机内参/外参以引导3D先验。
- 通过将相机参数输入生成器映射网络来引入姿态条件,从而在训练和推断中解耦姿态相关属性。
- 端到端训练,采用非饱和GAN损失和R1正则化,使用两阶段渲染分辨率(例如 64^2 然后 128^2)以加速训练。
实验结果
研究问题
- RQ1混合显式–隐式3D表示(tri-planes)是否能高效地从2D图像集合中提供高分辨率、具多视图一致性的3D感知图像合成?
- RQ2将特征生成与神经渲染解耦是否能够在不牺牲3D一致性的前提下,利用像StyleGAN2这样的2D CNN生成器进行3D场景合成?
- RQ3双重判别和姿态条件如何影响3D GAN中的多视图一致性、姿态相关偏差和图像质量?
- RQ4相对于先前的3D感知GAN,在FFHQ和AFHQ Cats上,定量提升(FID、身份一致性、深度和姿态准确性)是多少?
主要发现
| Dataset | Method | FFHQ FID | FFHQ ID | FFHQ Depth | FFHQ Pose | Cats FID | Cats ID | Cats Depth | Cats Pose |
|---|---|---|---|---|---|---|---|---|---|
| FFHQ 256^2 | GIRAFFE | 31.5 | 0.64 | 0.94 | .089 | 16.1 | — | — | — |
| FFHQ 256^2 | π-GAN | 29.9 | 0.67 | 0.44 | .021 | 16.0 | — | — | — |
| FFHQ 256^2 | Lift. SG | 29.8 | 0.58 | 0.40 | .023 | — | — | — | — |
| FFHQ 256^2 | Ours | 4.8 | 0.76 | 0.31 | .005 | 3.88 | — | — | — |
| FFHQ 512^2 | Ours | 4.7 | 0.77 | 0.39 | .005 | 2.77 | — | — | — |
- 在FFHQ和AFHQ Cats上实现最先进的3D感知合成,在图像质量和视角一致性方面有显著提升。
- 在最终分辨率512^2、神经渲染分辨率128^2下展示实时渲染,使用三平面表示。
- 在FID以及姿态/身份度量上超过基线(GIRAFFE、π-GAN、Lifting StyleGAN),我们的512^2结果在FFHQ上FID为4.7,在Cats上为2.77。
- 双重判别有助于减少跨视图的表情漂移,提升多视图一致性,但在未通过生成器姿态条件补偿时,FID 可能受损。
- 该架构能够从自然图像中学习高质量的3D几何,并允许使用潜在先验进行风格混合和单视图3D重建。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。