QUICK REVIEW

[논문 리뷰] Interactive Segment Anything NeRF with Feature Imitation

Xiaokang Chen, Jiaxiang Tang|arXiv (Cornell University)|2023. 05. 25.

Generative Adversarial Networks and Image Synthesis인용 수 9

한 줄 요약

본 논문은 시맨틱 피처 모방을 도입하여 2D 인지 모델의 시맨틱을 NeRF에 주입하고, 경량 디코더와 실시간 상호 작용으로 제로샷 3D 분할을 가능하게 하며, SAM을 사용하여 최대 16배 더 빠른 분할을 달성한다.

ABSTRACT

This paper investigates the potential of enhancing Neural Radiance Fields (NeRF) with semantics to expand their applications. Although NeRF has been proven useful in real-world applications like VR and digital creation, the lack of semantics hinders interaction with objects in complex scenes. We propose to imitate the backbone feature of off-the-shelf perception models to achieve zero-shot semantic segmentation with NeRF. Our framework reformulates the segmentation process by directly rendering semantic features and only applying the decoder from perception models. This eliminates the need for expensive backbones and benefits 3D consistency. Furthermore, we can project the learned semantics onto extracted mesh surfaces for real-time interaction. With the state-of-the-art Segment Anything Model (SAM), our framework accelerates segmentation by 16 times with comparable mask quality. The experimental results demonstrate the efficacy and computational advantages of our approach. Project page: \url{https://me.kiui.moe/san/}.

연구 동기 및 목표

인터랙티브한 3D 애플리케이션을 위해 NeRF에 명시적 시맨틱 정보를 추가하는 것을 동기로 삼는다.
NeRF 렌더링 중 시맨틱 피처를 렌더링하는 플러그앤플레이 시맨틱 피처 모방 모듈을 제안한다.
SAM과 같은 일반적으로 구매 가능한 인지 모델과의 호환성을 보여 주어 3D에서 빠른 제로샷 분할을 달성한다.
학습된 시맨틱을 메쉬 표면에 투사하는 것이 실시간 상호 작용과 후속 메쉬 편집을 가능하게 함을 보여준다.

제안 방법

학습 가능 시맨틱 피처 격자 E^{sem}로 백본 피처를 흉내 내어 NeRF에서 시맨틱 피처를 직접 렌더링한다.
레이-집적된 시맨틱 피처로부터 모방된 피처 F^hat(r)을 예측하기 위해 사분점 후에 경량 MLP를 사용하여 시맨틱 피처를 모방하고, 기존의 인지 백본으로 디코딩을 가능하게 한다.
학습은 모방된 시맨틱 피처와 실제 시맨틱 피처 간의 단일 규모 손실(MSE) 또는 교차 규모 상관을 포함하는 다중 규모 손실을 사용하여 스케일 간 일관성을 촉진한다.
시점 다양화를 위한 카메라 증강과 학습 중 백본 계산을 줄이기 위한 FIFO 캐싱 메커니즘을 도입한다.
GUI를 사용하여 3D 공간에서 클릭하거나 텍스트 프롬프트로 분할하고 2D 마스크를 3D 메시에 투사하여 실시간 조작을 가능하게 한다.

Figure 1. Our pipeline allows click- or text-based user interaction to perform zero-shot semantic segmentation in 3D space. We further investigate single-object mesh extraction by projecting semantic masks onto mesh surface, leading to applications like texture editing and model composition.

실험 결과

연구 질문

RQ1무거운 백본을 재학습하지 않고 시맨틱 피처 모방을 통해 NeRF에 시맨틱 정보를 부여할 수 있는가?
RQ2세분화(backbone)를 피처 모방 모듈로 대체해 렌더링 품질을 유지하면서 빠른 3D 분할을 가능하게 하는가?
RQ3본 접근법이 SAM 대 X-Decoder와 같은 다양한 인지 백본과 대화형 사용을 위한 메쉬 추출에 얼마나 잘 일반화되는가?
RQ4시뮬레이션? training strategies를 위한 카메라 증강, 캐싱, 교차 규모 손실이 모방 품질과 수렴에 얼마나 기여하는가?
RQ5제안된 파이프라인과 GUI로 3D 상호 작용이 실시간으로 가능할까?

주요 결과

본 방법은 현대 GPU를 사용해 5120x512 해상도에서 실시간 상호 작용을 달성하고 피처 인코딩에서 최대 24.39 FPS를 제공하며(SAM 백엔드가 백본 대비 16배 속도 향상).
모방된 시맨틱 피처는 평가 프롬프트에서 SAM에 대해 마스크 IoU 0.822, X-Decoder에 대해 0.749를 산출하며, 사전 학습된 모델과 경쟁력 있는 마스크 품질을 보인다.
교차 규모 상관 손실과 카메라 증강은 모방 품질과 수렴을 개선하며, 특히 X-Decoder와 같은 다중 규모 백본에서 두드러진다.
캐싱은 SAM과 같은 무거운 백본의 경우 특히 학습 시간을 크게 줄이고, 피처 모방 품질에 실질적인 악영향을 주지 않는다.
2D 마스크를 3D 표면에 투사하여 메시 분할을 가능하게 하며, 텍스처 편집 및 모델 합성에 바로 사용할 수 있는 단일 객체 메시를 제공한다.
본 프레임워크는 NeRF 및 인지 모델에 있어 모델에 구애받지 않으며, 비싼 백본을 우회하면서 렌더링 품질을 보존한다.

Figure 2. Semantic feature imitation training. We visualize the high-dimensional semantic features by rendering the first three channels as RGB.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.