[논문 리뷰] Segment Anything in 3D with Radiance Fields
SA3D는 NeRF를 3D 프리 pri으로 사용하여 SAM의 2D 분할을 3D로 올리고, 마스크 역 렌더링 및 뷰 간 자체 프롬프트를 반복적으로 수행하여 재학습 없이 몇 분 만에 3D 분할을 달성한다.
The Segment Anything Model (SAM) emerges as a powerful vision foundation model to generate high-quality 2D segmentation results. This paper aims to generalize SAM to segment 3D objects. Rather than replicating the data acquisition and annotation procedure which is costly in 3D, we design an efficient solution, leveraging the radiance field as a cheap and off-the-shelf prior that connects multi-view 2D images to the 3D space. We refer to the proposed solution as SA3D, short for Segment Anything in 3D. With SA3D, the user is only required to provide a 2D segmentation prompt (e.g., rough points) for the target object in a single view, which is used to generate its corresponding 2D mask with SAM. Next, SA3D alternately performs mask inverse rendering and cross-view self-prompting across various views to iteratively refine the 3D mask of the target object. For one view, mask inverse rendering projects the 2D mask obtained by SAM into the 3D space with guidance of the density distribution learned by the radiance field for 3D mask refinement; Then, cross-view self-prompting extracts reliable prompts automatically as the input to SAM from the rendered 2D mask of the inaccurate 3D mask for a new view. We show in experiments that SA3D adapts to various scenes and achieves 3D segmentation within seconds. Our research reveals a potential methodology to lift the ability of a 2D segmentation model to 3D. Our code is available at https://github.com/Jumpat/SegmentAnythingin3D.
연구 동기 및 목표
- 무거운 3D 모델 학습 없이 2D 비전 기본 모델(SAM)을 3D로 확장하려는 동기를 제시한다.
- 2D SAM 프롬프트를 3D 보셀 마스크에 연결하기 위한 NeRF 기반 프레임워크를 제안한다.
- 마스크 역 렌더링과 뷰 간 교차 프롬프트를 통한 반복적 파이프라인을 개발하여 3D 마스크를 완성한다.
- SAM 또는 NeRF 매개변수를 업데이트하지 않고 3D 마스크 격자만 업데이트하는 경량화된 접근 방식을 유지한다.
제안 방법
- 사전 학습된 NeRF로 뷰를 렌더링하고 그 뷰에서 프롬프트를 사용하여 2D SAM 마스크를 얻는다.
- 밀도 가이드 마스크 역 렌더링을 통해 2D SAM 마스크를 3D 보셀 격자로 투사한다.
- 현재 3D 마스크에서 새로운 뷰를 렌더링하고 렌더링된 마스크로 SAM용 자동 프롬프트를 생성한다(교차 뷰 자체 프롬프트링).
- SAM 마스크와 투사된 3D 마스크를 정렬하는 마스크-투사 손실에 대한 경사 하강으로 3D 마스크를 업데이트하고 다중 뷰 일관성을 위한 음수 조정 항을 포함한다.
- 3D 마스크가 완성될 때까지 뷰를 순회하되 SAM 또는 NeRF를 재학습하지 않는다.
실험 결과
연구 질문
- RQ12D 분할 기초 모델(SAM)을 3D 프리로서의 NeRF를 사용하여 효과적으로 3D로 올릴 수 있는가?
- RQ2마스크 역 렌더링과 교차 뷰 자체 프롬프트 프레임워크가 다양한 장면에서 정확한 3D 분할을 생성하는가?
- RQ3신뢰할 수 있는 3D 마스크를 달성하는 데 몇 개의 뷰가 필요하며, 하이퍼파라미터가 품질과 안정성에 어떻게 영향을 주는가?
- RQ4IoU 기반 뷰 거부 메커니즘이 분할 품질에 미치는 영향은 무엇인가?
- RQ5NVOS, SPIn-NeRF, 및 Replica 데이터세트에서 SA3D가 기존 3D 분할 방식과 어떻게 비교되는가?
주요 결과
| 방법 | mIoU (%) | mAcc (%) |
|---|---|---|
| Graph-cut (3D) | 39.4 | 73.6 |
| NVOS [47] | 70.1 | 92.0 |
| ISRF [15] | 83.8 | 96.4 |
| SA3D (ours) | 90.3 | 98.2 |
- SA3D는 NVOS에서 이전 방법을 능가하며 mIoU 90.3% 및 mAcc 98.2%를 기록한다.
- NVOS에서 Graph-cut (3D)보다 더 높은 mIoU(70.1% 대 39.4%) 및 mAcc(92.0% 대 73.6%)를 달성한다.
- SPIn-NeRF에서 SA3D는 IoU가 최대 97.7–98.3%에 이르고 장면 전반에서 높은 정확도를 보인다.
- Replica에서 SA3D는 평균 IoU를 83.0%로 크게 향상시키며 단일 뷰 및 MVSeg 기본값과 비교해 우수하다.
- 변수 실험은 3개의 프롬프트(n_p ≈ 3)를 사용하는 것이 장면 전반에 걸쳐 성능과 신뢰성을 균형 있게 한다는 것을 보인다.
- SA3D는 재학습 없이 분 단위 내에 3D 분할을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.