QUICK REVIEW

[論文レビュー] Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation

Karl Stelzner, Kristian Kersting|arXiv (Cornell University)|Apr 2, 2021

3D Shape Modeling and Analysis参考文献 54被引用数 29

ひとこと要約

ObSuRF は単一の画像を複数の体積 NeRF に分解し、それぞれがオブジェクトを表すことで、RGB-D 入力からの教師なし3Dオブジェクトセグメンテーションを可能にします。

ABSTRACT

We present ObSuRF, a method which turns a single image of a scene into a 3D model represented as a set of Neural Radiance Fields (NeRFs), with each NeRF corresponding to a different object. A single forward pass of an encoder network outputs a set of latent vectors describing the objects in the scene. These vectors are used independently to condition a NeRF decoder, defining the geometry and appearance of each object. We make learning more computationally efficient by deriving a novel loss, which allows training NeRFs on RGB-D inputs without explicit ray marching. After confirming that the model performs equal or better than state of the art on three 2D image segmentation benchmarks, we apply it to two multi-object 3D datasets: A multiview version of CLEVR, and a novel dataset in which scenes are populated by ShapeNet models. We find that after training ObSuRF on RGB-D views of training scenes, it is capable of not only recovering the 3D geometry of a scene depicted in a single input image, but also to segment it into objects, despite receiving no supervision in that regard.

研究の動機と目的

監督なしでダイナミクスや推論などの下流タスクのために、オブジェクト中心の3D表現を学習する動機づけ。
潜在スロットに条件付けられた NeRF の集合としてシーンを分解する ObSuRF を導入する。
明示的なレイ行進の手続きを伴わずに、RGB-D 監視を活用して NeRF を効率的に訓練する。
複数の NeRF を一つの整合的なシーン関数に組み合わせるための体系的な方法を提供する。

提案手法

スロットベースのエンコーダを用いて、単一の RGB 画像をオブジェクトスロットの集合にエンコードする。
各スロットに対して共有の NeRF デコーダを条件付けて、形状と外観を表すオブジェクトごとの NeRF を得る。
NeRF のレンダリングを Poisson-process の十分な定式化として再定義し、深度ベースの監督（RGB-D トレーニング）を可能にする。
深度とオブジェクト成分を周辺化して色を計算し、複数オブジェクトのシーンを同時にレンダリング可能にする。
訓練中にオブジェクト体積の非重複を促すオーバーラップ損失を導入する。
各ピクセルにつき2回の NeRF 評価を用いた RGB-D 損失でレンダリングと最適化を行い、標準的なレイマーチングと比較して計算量を削減する。

実験結果

リサーチクエスチョン

RQ1スロットベースのエンコーダは、監督なしでシーンを個々のオブジェクト用の独立した NeRF に意味ある分解を学習できるか？
RQ2RGB-D データをどのように活用して、明示的なレイマーチングなしに NeRF ベースのオブジェクト分解を効率的に訓練できるか？
RQ3オブジェクト中心の NeRF 分解は、2D ベンチマークを超えた新しい多オブジェクト3Dシーン（例: CLEVR-3D、MultiShapeNet）に一般化するか？
RQ4オブジェクト体積の非重複を強制することは、教師なし3Dセグメンテーションとジオメトリ回復にどのような影響を与えるか？

主な発見

ObSuRF は CLEVR、dSprites、Sprite データセットで、最先端の2D教師なしセグメンテーションの基準と同等またはそれを上回る。
3D ベンチマーク CLEVR-3D および MultiShapeNet で、RGB-D 監督ありで訓練した場合、単一の RGB ビューから各オブジェクトのジオメトリとセグメンテーションを正確に回復する。
スロットベースのオブジェクト中心 NeRF 分解は、モノリシック NeRF 自動エンコーダー（NeRF-AE）ベースラインより再構成誤差が低い。
Poisson-process 的なレイマーチングの視点で RGB-D 監督を用いると、ピクセルあたり2回の NeRF 評価を可能にし、訓練コストを大幅に削減する。
オーバーラップ損失は退化解を防ぎ、3Dシーンのオブジェクト分離を改善する（訓練中の慎重なスケジューリングが必要）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。