[论文解读] VoxGRAF: Fast 3D-Aware Image Synthesis with Sparse Voxel Grids
VoxGRAF 用稀疏体素网格和3D卷积神经网络替代基于坐标的 MLP,以实现单次前向传播、快速且3D 一致的3D 感知图像合成,前景在3D,背景在2D。
State-of-the-art 3D-aware generative models rely on coordinate-based MLPs to parameterize 3D radiance fields. While demonstrating impressive results, querying an MLP for every sample along each ray leads to slow rendering. Therefore, existing approaches often render low-resolution feature maps and process them with an upsampling network to obtain the final image. Albeit efficient, neural rendering often entangles viewpoint and content such that changing the camera pose results in unwanted changes of geometry or appearance. Motivated by recent results in voxel-based novel view synthesis, we investigate the utility of sparse voxel grid representations for fast and 3D-consistent generative modeling in this paper. Our results demonstrate that monolithic MLPs can indeed be replaced by 3D convolutions when combining sparse voxel grids with progressive growing, free space pruning and appropriate regularization. To obtain a compact representation of the scene and allow for scaling to higher voxel resolutions, our model disentangles the foreground object (modeled in 3D) from the background (modeled in 2D). In contrast to existing approaches, our method requires only a single forward pass to generate a full 3D scene. It hence allows for efficient rendering from arbitrary viewpoints while yielding 3D consistent results with high visual fidelity.
研究动机与目标
- 激发更快速、3D一致的3D感知图像合成,超越基于MLP的辐射场。
- 开发一个稀疏体素网格生成器,使单次前向传播就能生成一个3D场景。
- 将前景3D内容与背景2D内容解耦,以实现可扩展的高分辨率渲染。
- 在实现高视觉保真度的同时,保持各视角之间的3D一致性。
- 进行正则化和剪枝,以促使稀疏、清晰的表面,便于快速渲染。
提出的方法
- 用一个3D CNN 替代基于坐标的 MLP 辐射场,在稀疏体素网格上输出颜色和密度。
- 以相机姿态条件化前景生成器,并使用三线性插值在光线沿线上采样用于体积渲染。
- 将3D前景生成器与2D背景GAN结合,执行Alpha组合以获得最终图像。
- 采用渐进生长和基于密度的裁剪,获得可实现快速渲染的稀疏体素表示。
- 正则化以鼓励尖锐的表面(深度方差损失),并应用额外的 TV 和覆盖度正则化以提升训练稳定性。
- 使用GAN目标和R1正则化进行训练,对判别器进行姿态条件化以强化3D先验。
实验结果
研究问题
- RQ1稀疏体素网格生成器在实现更快的单次前向传播来生成场景的同时,是否能提供与坐标基MLP相当的3D保真度?
- RQ2将前景(3D)与背景(2D)分离是否能改善各视点之间的3D一致性与渲染效率?
- RQ3裁剪和渐进生长如何影响3D感知GAN中的稀疏性、内存使用和渲染速度?
- RQ4在高保真、3D一致结果方面,纯神经渲染与固定背景细化之间的权衡是什么?
主要发现
- 单次前向传播即可生成完整的3D场景,从而实现快速的多视图渲染。
- 通过深度方差正则化实现的稀疏性显著提高(74% 到 95%),减少内存并加速渲染。
- VoxGRAF 在 FFHQ (9.6) 和 AFHQ (9.6) 以及 Carla 的 6.7 上实现了具竞争力的 FID 分数,优于密集体素基线和若干非神经渲染方法。
- 与神经渲染基线相比,VoxGRAF 在多视图一致性和各视点的伪影减少方面表现更出色。
- 渲染时间将场景生成与逐视图渲染分离,在新视角下实现近实时的性能(如在某一引用场景中达到167 FPS)。
- 该方法在设计上保持3D一致性,具备姿态条件化前景生成与姿态无关背景,以及用于纠正数据集偏差的浅层修正 CNN。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。