QUICK REVIEW

[논문 리뷰] Weakly Supervised 3D Open-vocabulary Segmentation

Kunhao Liu, Fangneng Zhan|arXiv (Cornell University)|2023. 05. 23.

Multimodal Machine Learning Applications인용 수 7

한 줄 요약

논문은 개방 어휘 CLIP과 DINO 지식을 NeRF로 압축하여 다중 시각 이미지와 텍스트 설명으로 주석 없이 3D 개방 어휘 세그먼테이션을 달성하고 특정 장면에서 일부 완전 감독 기준선보다 우수하게 만든다.

ABSTRACT

Open-vocabulary segmentation of 3D scenes is a fundamental function of human perception and thus a crucial objective in computer vision research. However, this task is heavily impeded by the lack of large-scale and diverse 3D open-vocabulary segmentation datasets for training robust and generalizable models. Distilling knowledge from pre-trained 2D open-vocabulary segmentation models helps but it compromises the open-vocabulary feature as the 2D models are mostly finetuned with close-vocabulary datasets. We tackle the challenges in 3D open-vocabulary segmentation by exploiting pre-trained foundation models CLIP and DINO in a weakly supervised manner. Specifically, given only the open-vocabulary text descriptions of the objects in a scene, we distill the open-vocabulary multimodal knowledge and object reasoning capability of CLIP and DINO into a neural radiance field (NeRF), which effectively lifts 2D features into view-consistent 3D segmentation. A notable aspect of our approach is that it does not require any manual segmentation annotations for either the foundation models or the distillation process. Extensive experiments show that our method even outperforms fully supervised models trained with segmentation annotations in certain scenes, suggesting that 3D open-vocabulary segmentation can be effectively learned from 2D images and text-image pairs. Code is available at \url{https://github.com/Kunhao-Liu/3D-OVS}.

연구 동기 및 목표

드문 3D 데이터셋과 다양한 레이블로 인한 3D 개방 어휘 장면 세그먼테이션의 필요성 제기.
CLIP과 DINO로부터 주석 없이 NeRF에 대한 약식 감독 증류 프레임워크 제안.
이미지 레벨 CLIP 특징을 픽셀 레벨 3D 세그먼테이션으로 adapt하기 위한 메커니즘(3D Selection Volume, 다중 스케일 패치) 개발.
CLIP의 모호성(RDA)을 완화하고 DINO 기반 경계 정보를 FDA로 증류하는 방법 개발.
세그먼테이션 주석 없이도 강력한 3D 개방 어휘 세그먼테이션 성능을 긴 꼬리 클래스 포함하여 시연.

제안 방법

이미지 패치에서 3D Selection Volume으로 적절한 스케일을 선택하기 위해 다중 스케일 픽셀 레벨 CLIP 특징을 생성.
레이를 따라 RGB 및 CLIP 특징을 렌더링하고 렌더링된 CLIP 특징과 클래스 텍스트 특징 간의 코사인 유사도로 세그먼테이션 로짓을 계산.
세그먼테이션 확률을 정규화된 클래스 관련성 맵과 정렬하기 위한 Relevancy-Distribution Alignment (RDA) 손실 도입.
CLIP의 모호성 완화와 DINO 기반 장면 레이아웃 및 경계 정제를 위한 Feature-Distribution Alignment (FDA) 손실 도입, 유사/비유사 특징에 대한 재배합 가중치.
세그먼테이션 주석 없이 RGB 재투영 및 특징 코사인 유사도, LDA 스타일 정렬 손실 등으로 구성된 감독으로 학습.

실험 결과

연구 질문

RQ12D 이미지-텍스트 데이터에서 수동 세그먼테이션 주석 없이 3D 개방 어휘 세그먼테이션을 학습할 수 있는가?
RQ2미세 조정 없이 CLIP 이미지 레벨 특징을 3D NeRF 세그먼테이션에 픽셀 정확도로 만들 수 있는가?
RQ3CLIP과 DINO 특징을 로버스트한 3D 세그먼테이션 가능하게 정렬하기 위한 손실 및 메커니즘은 무엇인가?
RQ4제안된 방법은 3D 장면의 긴 꼬리 객체 클래스에서 어떻게 성능을 발휘하는가?
RQ5제한된 입력 시점과 스케일 사용 시 세그먼테이션 품질에 미치는 영향은 무엇인가?

주요 결과

방법	bed mIoU	bed Accuracy	sofa mIoU	sofa Accuracy	lawn mIoU	lawn Accuracy	room mIoU	room Accuracy	bench mIoU	bench Accuracy	table mIoU	table Accuracy
2D LSeg	56.0	87.6	4.5	16.5	17.5	77.5	19.2	46.1	6.0	42.7	7.6	29.9
ODISE	52.6	86.5	48.3	35.4	39.8	82.5	52.5	59.7	24.1	39.0	39.7	34.5
OV-Seg	79.8	40.4	66.1	69.6	81.2	92.1	71.4	49.1	88.9	89.2	80.6	65.3
FFD	56.6	86.9	3.7	9.5	42.9	82.6	25.1	51.4	6.1	42.8	7.9	30.1
Sem(ODISE)	50.3	86.5	27.7	22.2	24.2	80.5	29.5	61.5	25.6	56.4	18.4	30.8
Sem(OV-Seg)	89.3	96.7	66.3	89.0	87.6	95.4	53.8	81.9	94.2	98.5	83.8	94.6
LERF	73.5	86.9	27.0	43.8	73.7	93.5	46.6	79.8	53.2	79.7	33.4	41.0
Ours	89.5	96.7	74.0	91.6	88.2	97.3	92.8	98.9	89.3	96.3	88.8

제안된 방법은 세그먼테이션 주석 없이도 다수의 장면에서 여러 2D 및 3D 개방 어휘 baselines를 능가한다.
CLIP에서 파생된 특징은 Selection Volume과 다중 스케일 패치를 통해 3D로 올려올려져 뷰-일관성 있는 세그먼테이션을 달성한다.
RDA와 FDA 손실은 각각 CLIP의 모호성을 완화하고 DINO 경계를 증류하는 데 중요하다.
입력 시점이나 스케일이 제한적이어도 방법이 경쟁력 있는 성능을 유지하며 강건성을 강조한다.
일부 장면에서 약식 감독 방법이 세그먼테이션 마스크로 학습된 완전 감독 모델을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.