Skip to main content
QUICK REVIEW

[论文解读] Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations

Vincent Sitzmann, Michael Zollhöfer|arXiv (Cornell University)|Jun 4, 2019
Face recognition and analysis被引用 679
一句话总结

SRNs 提出一种连续的、具备 3D 结构感知的神经场景表示和可微渲染器,它从带姿态的 2D 图像学习几何和外观,实现新视图合成和少样本重建,而无需 3D 监督。

ABSTRACT

Unsupervised learning with generative models has the potential of discovering rich representations of 3D scenes. While geometric deep learning has explored 3D-structure-aware representations of scene geometry, these models typically require explicit 3D supervision. Emerging neural scene representations can be trained only with posed 2D images, but existing methods ignore the three-dimensional structure of scenes. We propose Scene Representation Networks (SRNs), a continuous, 3D-structure-aware scene representation that encodes both geometry and appearance. SRNs represent scenes as continuous functions that map world coordinates to a feature representation of local scene properties. By formulating the image formation as a differentiable ray-marching algorithm, SRNs can be trained end-to-end from only 2D images and their camera poses, without access to depth or shape. This formulation naturally generalizes across scenes, learning powerful geometry and appearance priors in the process. We demonstrate the potential of SRNs by evaluating them for novel view synthesis, few-shot reconstruction, joint shape and appearance interpolation, and unsupervised discovery of a non-rigid face model.

研究动机与目标

  • 动机:在没有显式 3D 监督的情况下,从 2D 图像中无监督地发现丰富的三维场景表示。
  • 引入一个连续场景表示,将三维坐标映射到编码几何和外观的特征向量。
  • 开发一个具有神经射线行进的可微分渲染器,以从任意视点渲染图像。
  • 展示在新视图合成、少样本重建以及发现非刚性脸部模型方面的应用。

提出的方法

  • 将场景表示为一个函数 Phi: R^3 -> R^n,将世界坐标映射到特征向量。
  • 使用一个可微分的神经渲染器 Theta,由一个学习的射线行进器 (RM-LSTM) 和一个逐像素的 MLP 颜色映射器组成。
  • 通过可微分射线行进解决光线与场景的相交,并用 RM-LSTM 预测步长来渲染。
  • 允许从带姿态的 2D 图像进行端到端训练,而不需要显式的 3D 监督。
  • 通过学习一个 Hypernetwork Psi,将潜在编码 z_j 映射到场景参数 phi_j,实现跨实例的共享渲染,从而在跨场景的泛化。
  • 用图像损失、深度正则化和潜在空间先验来优化联合目标。

实验结果

研究问题

  • RQ1从带姿态的 2D 图像学习的连续、3D 结构感知场景表示能否支持多视角一致的新视图合成?
  • RQ2SRNs 在多大程度上可以学习跨同一类别的实例泛化的几何与外观先验?
  • RQ3SRNs 在少样本重建以及在无 3D 监督的情况下发现潜在的非刚性形变(例如人脸)方面的表现如何?

主要发现

  • SRNs 实现了多视角一致的新视图合成,在基准任务上优于若干基线。
  • SRNs 能够进行少样本重建,重建几何和外观,并实现跨对象实例的潜在空间插值。
  • 该模型仅从带姿态的 2D 图像中以无监督方式发现几何和非刚性变形(例如人脸模型)。
  • 相机位姿和内参推广到未见配置,支持位姿外推和近距离渲染。
  • 逐像素颜色映射器结合可微分射线行进,在不依赖 2D 卷积的情况下保持多视图一致性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。