QUICK REVIEW

[논문 리뷰] OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy Prediction

Yunpeng Zhang, Zheng Zhu|arXiv (Cornell University)|2023. 04. 11.

Advanced Vision and Imaging인용 수 8

한 줄 요약

OccFormer은 카메라에서 얻은 3D 보셀 특징을 효율적으로 인코딩하기 위한 이중 경로 트랜스포머를 도입하고, 희소성과 클래스 불균형을 처리하기 위해 preserve-pooling과 클래스 가이드 샘플링을 활용한 Mask2Former 스타일 디코딩에 적응하여 SemanticKITTI SSC와 nuScenes LiDAR 세분화에서 최첨단 성능을 달성한다.

ABSTRACT

The vision-based perception for autonomous driving has undergone a transformation from the bird-eye-view (BEV) representations to the 3D semantic occupancy. Compared with the BEV planes, the 3D semantic occupancy further provides structural information along the vertical direction. This paper presents OccFormer, a dual-path transformer network to effectively process the 3D volume for semantic occupancy prediction. OccFormer achieves a long-range, dynamic, and efficient encoding of the camera-generated 3D voxel features. It is obtained by decomposing the heavy 3D processing into the local and global transformer pathways along the horizontal plane. For the occupancy decoder, we adapt the vanilla Mask2Former for 3D semantic occupancy by proposing preserve-pooling and class-guided sampling, which notably mitigate the sparsity and class imbalance. Experimental results demonstrate that OccFormer significantly outperforms existing methods for semantic scene completion on SemanticKITTI dataset and for LiDAR semantic segmentation on nuScenes dataset. Code is available at \url{https://github.com/zhangyp15/OccFormer}.

연구 동기 및 목표

BEV를 넘어 미세한 3D 구조와 의미를 재구성하여 시각 기반 3D 의미 점유 예측을 발전시킨다.
로컬 디테일과 글로벌 장면 구성을 포착하는 이중 경로 트랜스포머를 사용하여 3D 보셀 특징에 대한 효율적인 인코더를 개발한다.
희소성 및 클래스 불균형을 완화하기 위한 기술을 갖춘 3D 점유를 위한 마스크-분류 디코더를 Adapt한다.
RGB 입력을 사용하여 SemanticKITTI SSC에서 최첨단 성능을 입증하고 nuScenes LiDAR 세분화에서도 경쟁력 있는 결과를 보여준다.

제안 방법

로컬 BEV-슬라이스 윈도우 기반 주의 경로와 컨텍스트를 위한 ASPP를 사용하는 글로벌 BEV 경로를 통해 3D 특징을 처리하는 이중 경로 트랜스포머 인코더, 시그모이드 가중치 스킵 연결을 통한 융합.
깊이 분포와 외적 곱을 이용하여 3D 보셀 볼륨으로 이미지 특징을 올려 3D 변환을 수행하고 F3d를 형성하는 외적곱 방식.
Mask2Former에서 영감을 받은 점유 디코더로, 멀티스케일 3D 변형 가능 주의력과 마스크 임베딩 및 클래스 로짓을 위한 트랜스포머 디코더를 포함한다.
Preserve-pooling: 주의 마스크 다운샘플링 중 희소한 3D 점유 구조를 더 잘 보존하기 위해 삼선형 다운샘플링을 최대 풀링으로 교체한다.
Class-guided sampling: 클래스 빈도를 계산하고 샘플링 가중치를 도출하며 희귀 클래스의 매칭 및 감독을 개선하기 위해 보셀 위치의 편향 샘플링을 수행한다.

실험 결과

연구 질문

RQ1이중 경로 트랜스포머가 카메라 입력으로부터 3D 의미 점유에 대해 미세한 로컬 디테일과 글로벌 장면 구조를 공동으로 포착할 수 있는가?
RQ2Preserve-pooling과 클래스 가이드 샘플링을 적용한 Mask2Former가 희소성과 클래스 불균형 하에서 3D 점유 예측을 개선하는가?
RQ3제안된 OccFormer가 단안 및 시각 기반 기준선보다 의미 구성에서 우수하며 3D 점유 예측의 LiDAR-유사 성능에 근접한가?
RQ4로컬 및 글로벌 트랜스포머 경로가 전통적인 3D 컨볼루션에 비해 전체 성능과 효율성에 어떻게 기여하는가?

주요 결과

Method	Input Modality	SC IoU	SSC mIoU	road	sidewalk	parking	other-ground	building	car	truck	bicycle	motorcycle	other-vehicle	vegetation	trunk	terrain	person	bicyclist	motorcyclist	fence	pole	traf-sign
OccFormer (ours)	Camera	34.53	12.32	55.90	30.30	31.50	6.50	15.70	21.60	1.20	1.50	1.70	3.20	16.80	3.90	21.30	2.20	1.10	0.20	11.90	3.80	3.70

OccFormer는 SemanticKITTI SSC에서 단안 기준선을 능가하며 MonoScene 대비 개선점을 보고하고 테스트 대회 순위에서 강한 위치를 차지한다.
SemanticKITTI 검증에서 OccFormer는 여러 단안 방법보다 높은 SSC mIoU를 달성하고 더 나은 장면 완성 IoU를 입증한다.
nuScenes에서 OccFormer는 카메라 전용 모델로 LiDAR 세분화 성능에 경쟁력 있으며 TPVFormer를 능가하고 LiDAR 기반 방법에 근접한다.
아블레이션에서 로컬 및 글로벌 경로가 모두 이득에 기여하며 이중 경로 인코더가 일반적인 3D 컨볼루션보다 효율적임을 보이고, 멀티스케일 3D 변형 가능 주의력은 픽셀 디코더에서 FPN-3D보다 우수하다.
Preserve-pooling 및 클래스 가이드 샘플링이 트랜스포머 디코더에 의미 있는 개선을 주며, ablation에서 각각 mIoU를 대략 0.5포인트 및 1포인트 이상 향상시킨다.
모델은 8x RTX 3090 규모의 학습 설정을 사용하며 SemanticKITTI에서 30에포크, nuScenes에서 24에포크를 학습했고, 마스크-분류와 깊이 감독을 결합한 손실을 신중하게 설계하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.