[논문 리뷰] SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving
SurroundOcc는 다중 카메라 이미지로부터 Dense 3D Occupancy를 예측하기 위해 2D-3D 공간 주의와 다중 스케일 3D 볼륨을 활용하며, Dense Occupancy Ground-Truth 생성 파이프라인을 갖추어 nuScenes와 SemanticKITTI에서 최첨단 결과를 달성한다.
3D scene understanding plays a vital role in vision-based autonomous driving. While most existing methods focus on 3D object detection, they have difficulty describing real-world objects of arbitrary shapes and infinite classes. Towards a more comprehensive perception of a 3D scene, in this paper, we propose a SurroundOcc method to predict the 3D occupancy with multi-camera images. We first extract multi-scale features for each image and adopt spatial 2D-3D attention to lift them to the 3D volume space. Then we apply 3D convolutions to progressively upsample the volume features and impose supervision on multiple levels. To obtain dense occupancy prediction, we design a pipeline to generate dense occupancy ground truth without expansive occupancy annotations. Specifically, we fuse multi-frame LiDAR scans of dynamic objects and static scenes separately. Then we adopt Poisson Reconstruction to fill the holes and voxelize the mesh to get dense occupancy labels. Extensive experiments on nuScenes and SemanticKITTI datasets demonstrate the superiority of our method. Code and dataset are available at https://github.com/weiyithu/SurroundOcc
연구 동기 및 목표
- 다중 카메라 입력에서 희소 물체 탐지를 넘어 Dense 3D 장면 이해를 동기부여하고 가능하게 한다.
- 2D 다중 뷰 특징을 3D 점유 볼륨으로 올리는 프레임워크를 개발한다.
- 효과적인 감독으로 다중 스케일 3D 볼륨 업샘플링을 통해 Dense 3D 점유를 예측한다.
- 비싼 주석 없이 Dense Occupancy ground truth를 생성하는 실용적인 파이프라인을 만든다.
제안 방법
- 각 카메라 영상에서 백본 네트워크를 사용해 다중 스케일 2D 특징을 추출한다.
- BEV가 아닌 3D 볼륨 공간으로 다중 카메라 특징을 끌어올리기 위해 2D-3D 공간 주의(attention)를 적용한다.
- 볼륨 특징을 점진적으로 업샘플링하고 융합하기 위해 다중 스케일 3D UNet 유사 아키텍처를 사용한다.
- 상세 보존을 촉진하기 위해 손실 가중치를 점진적으로 감소시키며 여러 레벨에서 점유 예측을 감독한다.
- 다중 프레임 LiDAR 데이터를 스티칭(정적 및 동적)하고 Poisson 재구성 후 보셀화 및 NN 기반 시맨틱 라벨링을 적용하여 Dense Occupancy ground truth를 생성한다.
실험 결과
연구 질문
- RQ1Dense 3D 점유를 다중 카메라 영상에서 3D 보셀 표현으로 신뢰성 있게 예측할 수 있는가?
- RQ23D 볼륨 기반의 교차 뷰 융합이 다중 카메라 점유 예측에서 BEV 기반 융합보다 성능이 우수한가?
- RQ3다중 스케일 감독 및 Dense ground-truth 점유가 예측 품질에 어떤 영향을 주는가?
- RQ4다중 프레임 LiDAR와 Poisson 재구성을 이용한 Dense Occupancy ground truth 파이프라인이 수동 주석 없이도 효과적인 감독을 제공할 수 있는가?
- RQ5SurroundOcc는 nuScenes와 SemanticKITTI 같은 표준 벤치마크에서 3D 시맨틱 점유 및 장면 재구성에 대해 어떻게 수행하는가?
주요 결과
- SurroundOcc는 nuScenes의 3D 시맨틱 점유 예측 및 3D 장면 재구성 벤치마크에서 최첨단 성능을 달성한다.
- 이 방법은 단안 입력에 최적화되지 않았음에도 SemanticKITTI에서 단안 시맨틱 장면 완성 결과가 강력함을 보여준다.
- 3D 볼륨 기반의 교차 뷰 주의 메커니즘이 BEV 기반 융합보다 3D 공간 정보를 더 잘 보존한다.
- Dense ground-truth 감독을 포함한 다중 스케일 점유 예측은 희소 LiDAR 감독에 비해 점유 밀도와 품질을 크게 향상시킨다.
- 다중 프레임 스티칭 및 Poisson 재구성을 통한 Dense Occupancy ground-truth 생성은 단일 프레임 LiDAR 포인트나 희소 점유 주석을 사용하는 것보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.