[论文解读] Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation
ObSuRF 将单幅图像分解为多个体积化的 NeRF,每个表示一个对象,实现从 RGB-D 输入的无监督 3D 物体分割。
We present ObSuRF, a method which turns a single image of a scene into a 3D model represented as a set of Neural Radiance Fields (NeRFs), with each NeRF corresponding to a different object. A single forward pass of an encoder network outputs a set of latent vectors describing the objects in the scene. These vectors are used independently to condition a NeRF decoder, defining the geometry and appearance of each object. We make learning more computationally efficient by deriving a novel loss, which allows training NeRFs on RGB-D inputs without explicit ray marching. After confirming that the model performs equal or better than state of the art on three 2D image segmentation benchmarks, we apply it to two multi-object 3D datasets: A multiview version of CLEVR, and a novel dataset in which scenes are populated by ShapeNet models. We find that after training ObSuRF on RGB-D views of training scenes, it is capable of not only recovering the 3D geometry of a scene depicted in a single input image, but also to segment it into objects, despite receiving no supervision in that regard.
研究动机与目标
- 激发学习面向对象的 3D 表征,以用于下游任务(动力学、推理)而无需监督。
- Introduce ObSuRF 将场景分解为一组由 latent slots 条件化的 NeRFs。
- Leverage RGB-D supervision to train NeRFs efficiently without explicit ray marching.
- Provide a principled method to compose multiple NeRFs into a coherent scene function.
提出的方法
- 通过基于槽的编码器将单个 RGB 图像编码为一组对象槽。
- 对每个槽条件化一个共享的 NeRF 解码器,以获得表示几何与外观的每对象 NeRFs。
- 将 NeRF 渲染重新表述为 Poisson-process sufficient 形式,以实现基于深度的监督(RGB-D 训练)。
- 通过对深度和对象分量边缘化来计算颜色,从而实现多对象场景的联合渲染。
- 引入 overlap loss 以在训练时鼓励对象体积不重叠。
- 使用 RGB-D 损失进行渲染和优化,每个像素进行两次 NeRF 评估,与标准射线追踪相比减少计算。
实验结果
研究问题
- RQ1基于槽的编码器是否能够在无监督的情况下,将场景分解为独立的 NeRFs 来表示个别对象?
- RQ2如何利用 RGB-D 数据高效训练基于 NeRF 的对象分解,而无需显式的射线 march?
- RQ3面向对象的 NeRF 分解是否能够推广到新的多对象 3D 场景(例如 CLEVR-3D、MultiShapeNet),超越 2D 基准?
- RQ4强制对象体积不重叠对无监督 3D 分割和几何恢复有什么影响?
主要发现
- ObSuRF 在 CLEVR、dSprites、Sprite 数据集上达到或超过最新的 2D 无监督分割基准。
- 在 3D 基准 CLEVR-3D 和 MultiShapeNet 上,在使用 RGB-D 监督训练时,ObSuRF 能从单个 RGB 视图准确恢复每个对象的几何和分割。
- 基于槽的对象中心 NeRF 分解比单体 NeRF 自编码器基线(NeRF-AE)具有更低的重建误差。
- 使用带 Poisson-process 视角的射线行进的 RGB-D 监督,使每像素进行两次 NeRF 评估,大幅降低训练成本。
- 一个 overlap loss 有助于防止退化解并在 3D 场景中改善对象分离(训练时需要仔细调度)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。