QUICK REVIEW

[논문 리뷰] OneFormer3D: One Transformer for Unified Point Cloud Segmentation

Maxim Kolodiazhnyi, Анна Воронцова|arXiv (Cornell University)|2023. 11. 24.

3D Shape Modeling and Analysis인용 수 9

한 줄 요약

OneFormer3D는 3D 포인트 클라우드에 대해 의미론적, 인스턴스 및 팬옵틱 세그먼트를 단일 트랜스포머 기반 프레임워크로 통합하고, 팬옵틱 데이터에서 엔드-투-엔드로 학습하며 ScanNet, ScanNet200, S3DIS에서 최첨단 성능을 달성한다.

ABSTRACT

Semantic, instance, and panoptic segmentation of 3D point clouds have been addressed using task-specific models of distinct design. Thereby, the similarity of all segmentation tasks and the implicit relationship between them have not been utilized effectively. This paper presents a unified, simple, and effective model addressing all these tasks jointly. The model, named OneFormer3D, performs instance and semantic segmentation consistently, using a group of learnable kernels, where each kernel is responsible for generating a mask for either an instance or a semantic category. These kernels are trained with a transformer-based decoder with unified instance and semantic queries passed as an input. Such a design enables training a model end-to-end in a single run, so that it achieves top performance on all three segmentation tasks simultaneously. Specifically, our OneFormer3D ranks 1st and sets a new state-of-the-art (+2.1 mAP50) in the ScanNet test leaderboard. We also demonstrate the state-of-the-art results in semantic, instance, and panoptic segmentation of ScanNet (+21 PQ), ScanNet200 (+3.8 mAP50), and S3DIS (+0.8 mIoU) datasets.

연구 동기 및 목표

의미론적, 인스턴스 및 팬옵틱 3D 세그멘테이션을 단일 모델로 함께 해결할 수 있음을 입증한다.
통합 마스크 생성을 위한 의미론 쿼리와 인스턴스 쿼리를 모두 포함하는 쿼리 디코더를 도입한다.
학습을 안정화하고 가속하기 위한 쿼리 선택 및 해리된 매칭 전략을 개발한다.
팬옵틱 데이터의 엔드투엔드 학습으로 ScanNet, ScanNet200, S3DIS에서 최첨단 성능을 보여준다.

제안 방법

점별 특징을 추출하기 위해 희소 3D U-Net 백본을 사용한다.
트랜스포머 디코더의 계산량을 줄이기 위해 유연한 풀링(슈퍼포인트 또는 보셀)을 적용한다.
마스크를 위한 학습된 커널을 생성하기 위해 의미론 및 인스턴스 쿼리를 모두 갖춘 트랜스포머 디코더를 도입한다.
슈퍼포인트를 직접적으로 정답 객체에 연결하여 Hungarian 매칭을 피하는 해리된 매칭 방식을 사용한다.
인스턴스 분류, 마스크 BCE 및 Dice 손실, 그리고 의미론 BCE 손실을 포함한 결합 손실로 학습한다.

실험 결과

연구 질문

RQ1의미론적, 인스턴스 및 팬옵틱 3D 세그멘테이션이 단일 통합 모델로 효과적으로 해결될 수 있는가?
RQ2의미론 및 인스턴스 쿼리로의 공동 학습이 태스크-특정 모델 대비 3D 세그멘테이션 성능을 향상시키는가?
RQ3쿼리 선택 및 해리된 매칭이 학습을 안정화하고 3D 트랜스포머 기반 세그멘테이션의 정확도를 향상시키는가?
RQ4OneFormer3D를 사용할 때 ScanNet, ScanNet200, S3DIS에서의 최첨단 성능 향상은 어느 정도인가?

주요 결과

ScanNet, ScanNet200, S3DIS에서 3D 의미론, 인스턴스 및 팬옵틱 세그멘테이션의 최첨단 성능을 달성한다.
ScanNet 검증 분할에서 OneFormer3D는 인스턴스, 의미론, 팬옵틱 작업에서 최고 점수를 달성하며 SPFormer 및 Mask3D와 같은 기준선보다 우수하다.
전통적인 Hungarian 알고리즘을 대체하는 선형 시간 연관성을 갖는 새로운 해리된 매칭을 입증한다.
단일 모델에서의 공동 학습으로 의미론 mIoU 향상 및 견고한 팬옵틱 성능 등 의미 있는 이점을 보여준다.
사전 학습(실제 및 합성) 및 슈퍼포인트 풀링의 제거가 성능에 영향을 미칠 수 있으며, 대규모 사전 학습이 주목할 만한 이점을 가져온다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.