[논문 리뷰] SAM3D: Segment Anything in 3D Scenes
SAM3D는 2D SAM 마스크를 3D 포인트 클라우드로 투사하고 인접 프레임의 마스크를 반복적으로 병합하여 SAM을 학습시키거나 미세조정하지 않고 3D 장면 마스크를 생성합니다.
In this work, we propose SAM3D, a novel framework that is able to predict masks in 3D point clouds by leveraging the Segment-Anything Model (SAM) in RGB images without further training or finetuning. For a point cloud of a 3D scene with posed RGB images, we first predict segmentation masks of RGB images with SAM, and then project the 2D masks into the 3D points. Later, we merge the 3D masks iteratively with a bottom-up merging approach. At each step, we merge the point cloud masks of two adjacent frames with the bidirectional merging approach. In this way, the 3D masks predicted from different frames are gradually merged into the 3D masks of the whole 3D scene. Finally, we can optionally ensemble the result from our SAM3D with the over-segmentation results based on the geometric information of the 3D scenes. Our approach is experimented with ScanNet dataset and qualitative results demonstrate that our SAM3D achieves reasonable and fine-grained 3D segmentation results without any training or finetuning of SAM.
연구 동기 및 목표
- 학습이나 미세조정 없이 세밀한 3D 장면 분할을 위해 Segment Anything Model (SAM)을 활용한다.
- 포즈가 부여된 RGB-D 데이터를 사용하여 RGB 프레임의 2D SAM 마스크를 3D 포인트 클라우드로 투사한다.
- 인접 프레임 간의 부분 3D 마스크를 양방향 및 하향식 전략으로 병합하여 전체 장면의 3D 마스크를 얻는다.
- 기하학적 신호로 도출된 오버세그먼트 마스크와 SAM 유래 마스크를 앙상블하여 분할 품질을 향상시킨다.
- ScanNet에서의 질적 결과를 제시하고 잠재적 오픈 보캐뮈럴리(Open-Vocabulary) 3D 분할 응용 가능성에 대해 논의한다.
제안 방법
- SAM을 각 RGB 프레임에 적용하여 2D 분할 마스크를 얻는다.
- 깊이 및 카메라 내부/외부 파라미터를 사용하여 2D 마스크를 3D 공간으로 매핑한 뒤 그리드 풀링으로 다운샘플링한다.
- 마스크 겹침과 포인트 대응을 기반으로 인접 프레임의 마스크를 병합하여 양방향으로 융합한다.
- 전역 3D 마스크를 얻기 위해 전체 장면에 걸친 하향식 계층적 병합을 수행한다.
- 지오메트리 신호에서 파생된 오버-segmentation 마스크와 SAM3D 마스크를 앙상블하여 정확도를 높인다.
실험 결과
연구 질문
- RQ1SAM 기반의 2D 분할을 3D 데이터 학습 없이도 전체 장면에 걸쳐 일관된 3D 마스크로 상승시킬 수 있는가?
- RQ2인접 프레임의 마스크 중첩과 양방향 병합이 일관된 3D 영역 마스크를 얼마나 효과적으로 생성할 수 있는가?
- RQ3기하 기반의 오버-세그먼테이션과의 앙상블이 3D 분할 품질을 향상시키는가?
주요 결과
- SAM3D는 SAM의 학습이나 미세조정 없이도 ScanNet에서 합리적이고 세밀한 3D 분할 결과를 산출한다.
- 이 방법은 벽면의 페인팅처럼 세밀한 디테일의 마스크를 생성할 수 있는데, 이는 일부 GT 주석이나 오버-세그먼트 결과를 초과할 수 있다.
- 양방향 병합과 하향식 병합은 프레임 간 마스크를 점진적으로 통합해 전체 장면의 3D 마스크를 형성한다.
- SAM3D 결과를 기하 기반의 오버-세그먼테이션과 앙상블하면 RGB 시맨틱과 기하학적 단서를 결합하여 분할 품질이 더욱 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.