Skip to main content
QUICK REVIEW

[論文レビュー] Segment Anything in 3D with Radiance Fields

Jiazhong Cen, Jiemin Fang|arXiv (Cornell University)|Apr 24, 2023
Advanced Neural Network Applications被引用数 45
ひとこと要約

SA3D は NeRF を3Dの事前情報として用い、SAMの2Dセグメンテーションを反復的なマスクの逆レンダリングとクロスビュー自己プロンプトによって3Dへ持ち上げ、SAMやNeRFの再訓練なしに分の3Dセグメンテーションを数分で実現する。

ABSTRACT

The Segment Anything Model (SAM) emerges as a powerful vision foundation model to generate high-quality 2D segmentation results. This paper aims to generalize SAM to segment 3D objects. Rather than replicating the data acquisition and annotation procedure which is costly in 3D, we design an efficient solution, leveraging the radiance field as a cheap and off-the-shelf prior that connects multi-view 2D images to the 3D space. We refer to the proposed solution as SA3D, short for Segment Anything in 3D. With SA3D, the user is only required to provide a 2D segmentation prompt (e.g., rough points) for the target object in a single view, which is used to generate its corresponding 2D mask with SAM. Next, SA3D alternately performs mask inverse rendering and cross-view self-prompting across various views to iteratively refine the 3D mask of the target object. For one view, mask inverse rendering projects the 2D mask obtained by SAM into the 3D space with guidance of the density distribution learned by the radiance field for 3D mask refinement; Then, cross-view self-prompting extracts reliable prompts automatically as the input to SAM from the rendered 2D mask of the inaccurate 3D mask for a new view. We show in experiments that SA3D adapts to various scenes and achieves 3D segmentation within seconds. Our research reveals a potential methodology to lift the ability of a 2D segmentation model to 3D. Our code is available at https://github.com/Jumpat/SegmentAnythingin3D.

研究の動機と目的

  • 重い3Dモデルの訓練を必要とせず、2D視覚基盤モデル(SAM)を3Dへ拡張する動機づけ。
  • 2D SAMプロンプトを3Dボクセルマスクへ接続するNeRFベースのフレームワークを提案。
  • 3Dマスクを完成させるためのマスクの逆レンダリングとクロスビュー自己プロンプトによる反復的なパイプラインを開発。
  • SAMやNeRFのパラメータを更新せず、3Dマスクグリッドの更新のみで軽量なアプローチを維持。

提案手法

  • 事前学習済みのNeRFでビューをレンダリングし、そのビュー内のプロンプトを用いて2D SAMマスクを取得。
  • 密度指向のマスクの逆レンダリングを用いて2D SAMマスクを3Dボクセルグリッドに投影。
  • 現在の3Dマスクから新規ビューをレンダリングし、レンダリングされたマスクからSAM用の自動プロンプトを生成(クロスビュー自己プロンプト)。
  • SAMマスクと投影された3Dマスクを整合させるマスク投影損失に対して勾配降下法で3Dマスクを更新し、多視点の一貫性を確保するためのネガティブ整合項を含む。
  • 3Dマスクが完成するまでビューを跨いで反復し、SAMやNeRFの再訓練は行わない。

実験結果

リサーチクエスチョン

  • RQ12Dセグメンテーション基盤モデル(SAM)を3D事前情報としてのNeRFを用いて効果的に3Dへ持ち上げられるか?
  • RQ2マスクの逆レンダリングとクロスビュー自己プロンプトによるフレームワークは、多様なシーンで正確な3Dセグメンテーションを生み出すか?
  • RQ3信頼性の高い3Dマスクを得るには何ビューが必要か、ハイパーパラメータは品質と安定性にどう影響するか?
  • RQ4IoUベースのビュー拒否機構がセグメンテーション品質に与える影響は?
  • RQ5NVOS、SPIn-NeRF、Replicaデータセットに対する既存の3Dセグメンテーション手法とSA3Dの比較は?

主な発見

方法mIoU (%)mAcc (%)
Graph-cut (3D)39.473.6
NVOS [47]70.192.0
ISRF [15]83.896.4
SA3D (ours)90.398.2
  • SA3DはNVOSで従来手法を上回り、mIoU 90.3%、mAcc 98.2%。
  • NVOSでGraph-cut (3D)よりmIoUが高く(70.1% 対 39.4%)、mAccも高い(92.0% 対 73.6%)。
  • SPIn-NeRFで、SA3DはIoUが最大97.7–98.3%で、シーン全体で高い精度。
  • Replicaでは、SA3Dは平均IoUを83.0%に顕著に改善、単一ビューおよび MVSeg ベースラインと比較して。
  • アブレーションでは3つのプロンプト(n_p ≈ 3)が、シーンを横断した性能と信頼性のバランスを取ることを示す。
  • SA3Dは再訓練なしで数分で3Dセグメンテーションを可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。