Skip to main content
QUICK REVIEW

[论文解读] NeRF-VAE: A Geometry Aware 3D Scene Generative Model

Adam R. Kosiorek, Heiko Strathmann|arXiv (Cornell University)|Apr 1, 2021
Advanced Vision and Imaging参考文献 41被引用 26
一句话总结

NeRF-VAE 是一个具几何感知的三维场景生成模型,它使用一个基于 NeRF 的共享解码器,并以每个场景的潜在变量为条件,从而实现摊销推断和从少量输入图像在新视点渲染几何一致的场景。

ABSTRACT

We propose NeRF-VAE, a 3D scene generative model that incorporates geometric structure via NeRF and differentiable volume rendering. In contrast to NeRF, our model takes into account shared structure across scenes, and is able to infer the structure of a novel scene -- without the need to re-train -- using amortized inference. NeRF-VAE's explicit 3D rendering process further contrasts previous generative models with convolution-based rendering which lacks geometric structure. Our model is a VAE that learns a distribution over radiance fields by conditioning them on a latent scene representation. We show that, once trained, NeRF-VAE is able to infer and render geometrically-consistent scenes from previously unseen 3D environments using very few input images. We further demonstrate that NeRF-VAE generalizes well to out-of-distribution cameras, while convolutional models do not. Finally, we introduce and study an attention-based conditioning mechanism of NeRF-VAE's decoder, which improves model performance.

研究动机与目标

  • 将三维几何结构引入使用 Neural Radiance Fields (NeRF) 的场景生成模型中。
  • 实现摊销、每场景推断,以便在不重新训练的情况下推断出新场景。
  • 学习跨多个场景的共享场景先验,以在少量视图下改进重建。
  • 通过可微体积渲染保持不同视点之间的几何一致性。
  • 提供灵活的条件机制(包括注意力)以改进场景函数建模。

提出的方法

  • 将以每个场景潜在变量 z 为条件的场景函数 G_theta(x,d) 表示为 NeRF 解码器。
  • 使用编码器 E_phi 从包含上下文图像和相机位姿的上下文集合 C 中推断近似后验 q_lambda(z|C)。
  • 通过变分目标(ELBO)进行训练,包含重建项以及 q_lambda 与 p(z) 之间的 KL 散度。
  • 采用迭代摊销推断以细化后验参数 lambda,降低摊销差距。
  • 探索基于 MLP 与注意力的场景函数条件化,包括对 x 和 d 的 Fourier/圆形编码。
  • 通过使用 NeRF 风格的光线行进进行可微体积渲染来渲染图像;可选地估计深度图。

实验结果

研究问题

  • RQ1由于共享的场景先验,NeRF-VAE 能否仅从极少量输入视图中推断出新颖且几何一致的场景?
  • RQ2潜在的每场景表示与完全逐场景的 NeRF 在表达能力和重建质量上有何差异?
  • RQ3与卷积基线相比,几何感知解码是否提升对超出分布的相机视点的泛化能力?
  • RQ4不同条件机制(MLP 与注意力)对重建和泛化的影响是什么?

主要发现

  • 当在少于 100 视图上训练时,NeRF-VAE 的重建误差低于 NeRF,并且可以从单视图以常数时间推断场景结构。
  • 该模型对超出分布的相机视图的泛化能力优于基于卷积的基线方法(例如 GQN 变体)。
  • 在多种设定下,基于注意力的条件化机制在性能上优于简单的 MLP 条件化。
  • 学得的场景先验使得从多个视点对新场景进行采样和渲染成为可能,具有合理的几何和深度估计。
  • 迭代摊销推断减少摊销差距,并在复杂场景中相较于纯摊销推断改善重建。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。