[論文レビュー] OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation with Neural Radiance Fields
OR-NeRF は単一ビューのプロンプト(ポイントまたはテキスト)を用いて 3D ジオメトリと SAM により多視点マスクを生成し、NeRF/TensoRF を用いて色・深度・知覚損失の一貫性を図りつつシーンを再構成して、3D シーンからオブジェクトを除去します。
The emergence of Neural Radiance Fields (NeRF) for novel view synthesis has increased interest in 3D scene editing. An essential task in editing is removing objects from a scene while ensuring visual reasonability and multiview consistency. However, current methods face challenges such as time-consuming object labeling, limited capability to remove specific targets, and compromised rendering quality after removal. This paper proposes a novel object-removing pipeline, named OR-NeRF, that can remove objects from 3D scenes with user-given points or text prompts on a single view, achieving better performance in less time than previous works. Our method spreads user annotations to all views through 3D geometry and sparse correspondence, ensuring 3D consistency with less processing burden. Then recent 2D segmentation model Segment-Anything (SAM) is applied to predict masks, and a 2D inpainting model is used to generate color supervision. Finally, our algorithm applies depth supervision and perceptual loss to maintain consistency in geometry and appearance after object removal. Experimental results demonstrate that our method achieves better editing quality with less time than previous works, considering both quality and quantity.
研究の動機と目的
- 最小限のユーザー入力(ポイントまたはテキスト)で単一ビュー上の 3D シーンのオブジェクト除去を動機づけ、実現する。
- 3D ジオメトリを介して注釈を伝播させることで、迅速かつ正確な多視点セグメンテーションを提供する。
- 除去後のシーンを NeRF/TensoRF で再構築し、色・深度・知覚的一貫性を保証する。
提案手法
- 1 つのビューからのユーザー注釈を、3D COLMAP ベースの対応関係と 2D/3D 空間間の射影を用いて全ビューへ広げる。
- Projected ポイントプロンプトからマスクを予測するために Segment-Anything (SAM) を用いる(あるいは Grounded-SAM サンプリングを介してテキストプロンプトをポイントプロンプトへ変換する)。
- LaMa(2D インペインティング)を用いて削除領域の色と深度のプライヤを取得する。
- 色・深度・知覚損失による監視付きで Neural Radiance Fields を訓練し、除去後の視点間の一貫性を確保する。
- 深度監視と masked region に焦点を当てた知覚損失を採用して、幾何学的・外観的一貫性を向上させる。

実験結果
リサーチクエスチョン
- RQ1単一ビューのユーザープロンプト(ポイントまたはテキスト)をどのように全ビューへ伝播して、一貫した多視点オブジェクト除去を可能にするか?
- RQ2深度と知覚監視の組み合わせは、NeRF ベースの再構成で3D 一貫性のある除去を向上させるか?
- RQ3SAM を幾何ベースの伝播と併用することで、従来の多段階 SEG/NeRF アプローチよりも速く正確なマスクを得られるか?
- RQ4OR-NeRF はセグメンテーション品質と編集速度の点で SPIn-NeRF と比較してどうか?
主な発見
- 3D ジオメトリの伝播と SAM を用いることで、すべての視点のマスクを迅速に生成でき(約 RTX 3090 で 2 フレーム/秒)、従来の多段階アプローチを上回る。
- ポイントまたは変換されたテキストプロンプトを用いた多視点セグメンテーションは高い精度と IoU を達成し、報告されたシーンの SPIn-NeRF との比較で平均精度が約 99%、IoU が約 95% 付近となる。
- 全深度プライヤと知覚損失を用いた深度監視は視点間の一貫性とレンダリング品質を向上させるが、FID/LPIPS への影響は構成によって異なる。
- OR-NeRF は提示された評価で SPIn-NeRF よりマスク生成が速く、セグメンテーション指標が一般的に高い。
- 20 のシーンを用いた実験では、提案手法がベースラインと比較してオブジェクト除去タスクのレンダリングがより明瞭で処理が速いことを示す。
- 研究は 2D インペインティングの品質に関連する制約を指摘し、より説得力のある完成度の向上には拡散ベースのインペインティングを検討する可能性を示唆する。
![Figure 2: Comparison of mask generation between SPIn-NeRF [ 10 ] (first row) and ours (second row). Our method generates masks rapidly and precisely for all views in a single step, supporting points, and text input. In contrast, SPIn-NeRF exhibits slower speed, lower accuracy, and limited support fo](https://ar5iv.labs.arxiv.org/html/2305.10503/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。