[논문 리뷰] Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving
Occ3D는 dense 라벨 생성 파이프라인과 벤치마크에서 최첨단 성능을 달성하는 새로운 CTF-Occ 네트워크를 갖춘 두 개의 대규모 3D 점유 예측 벤치마크(Occ3D-Waymo 및 Occ3D-nuScenes)를 도입한다.
Robotic perception requires the modeling of both 3D geometry and semantics. Existing methods typically focus on estimating 3D bounding boxes, neglecting finer geometric details and struggling to handle general, out-of-vocabulary objects. 3D occupancy prediction, which estimates the detailed occupancy states and semantics of a scene, is an emerging task to overcome these limitations. To support 3D occupancy prediction, we develop a label generation pipeline that produces dense, visibility-aware labels for any given scene. This pipeline comprises three stages: voxel densification, occlusion reasoning, and image-guided voxel refinement. We establish two benchmarks, derived from the Waymo Open Dataset and the nuScenes Dataset, namely Occ3D-Waymo and Occ3D-nuScenes benchmarks. Furthermore, we provide an extensive analysis of the proposed dataset with various baseline models. Lastly, we propose a new model, dubbed Coarse-to-Fine Occupancy (CTF-Occ) network, which demonstrates superior performance on the Occ3D benchmarks. The code, data, and benchmarks are released at https://tsinghua-mars-lab.github.io/Occ3D/.
연구 동기 및 목표
- 3D 점유 예측을 전통적인 3D 탐지 및 SSC의 자세한 대안으로 제시하여 더 풍부한 기하학 및 개방형 세계 의미를 강화한다.
- 복셀 밀도 증가–가려진 상태 추론–이미지 가이드 정제 파이프라인을 통해 고품질의 Dense 점유 라벨을 제공한다.
- Waymo Open Dataset 및 nuScenes에서 파생된 Occ3D-Waymo 및 Occ3D-nuScenes 벤치마크를 설정하여 종합적인 평가를 가능하게 한다.
- 벤치마크에서의 Occ3D를 현실화하고 기본 방법을 분석하여 3D 점유 예측 연구를 촉진한다.
- Coarse-to-Fine Occupancy (CTF-Occ) 네트워크를 제안하고 검증하여 Occ3D에서 우수한 성능을 달성한다.
제안 방법
- 3단계 라벨 생성 파이프라인(보셋 밀도 증가, 가려짐 추론, 이미지 가이드 보셈 정제)을 개발한다.
- dense하고 가시성 인식 보셀 라벨을 갖춘 Waymo Open Dataset 및 nuScenes를 기반으로 두 벤치마크(Occ3D-Waymo 및 Occ3D-nuScenes)를 생성한다.
- 교차 주의(Cross-Attention)를 통해 2D 이미지 특징을 3D 공간으로 모으는 트랜스포머 기반 네트워크인 CTF-Occ를 제안하며, 거친-정교한 보셀 인코더로 구동한다.
- 교차 주의 중 비어 있지 않거나 불확실한 보셀에 계산을 집중시키기 위한 증분 토큰 선택을 도입한다.
- 공간 교차 주의와 암시적 점유 디코더를 갖춘 피라미드 보셀 인코더를 사용하여 고해상도 점유 예측을 수행한다.
- 다층 보셀 점유를 감독하기 위해 OHEM 손실과 보조 이진 보셀 마스크를 사용하여 학습한다.
실험 결과
연구 질문
- RQ1기존 LiDAR 및 이미지 데이터로부터 Dense하고 가시성 인식이 반영된 보셀 라벨을 어떻게 생성하여 3D 점유 예측을 가능하게 할 수 있는가?
- RQ2자율주행용 대규모 주변 뷰 데이터셋에서 기존 3D 점유 방법의 성능은 어떠한가?
- RQ3거친-정교한 보셀 인코딩 전략이 3D 점유 예측의 정확도와 효율성을 개선할 수 있는가?
- RQ4Cross-Attention과 Incremental Token Selection이 담긴 트랜스포머 기반 아키텍처가 Occ3D에서 우수한 3D 점유 예측을 제공하는가?
- RQ5개방형 세계 인식 문제를 다루기 위해 점유 예측 벤치마크에 GO(General Object) 클래스를 포함하는 것이 미치는 영향은 무엇인가?
주요 결과
- Occ3D는 Dense하고 가시성 인식이 반영된 보셀 라벨을 갖춘 두 개의 대규모 벤치마크인 Occ3D-Waymo 및 Occ3D-nuScenes를 도입한다.
- CTF-Occ는 Occ3D-nuScenes에서 강력한 베이스라인(BEVFormer 등)을 약 1.65 mIoU만큼 상회한다.
- Occ3D-Waymo에서 CTF-Occ는 이전 방법 대비 mIoU를 약 1.97 증가시키고 특정 객체에서 더 큰 이득을 보이며(예: 교통 원추 +2.88 IoU, 차량 +10.23 IoU) 더 큰 개선을 보인다.
- 레이블 생성 파이프라인(보셀 밀도 증가, 가려짐 추론, 이미지 가이드 정제)은 3D-2D 일관성과 더 높은 품질의 점유 주석을 향상시킨다.
- 증분 토큰 선택과 교차 주의가 결합된 거친-정교한 보셀 인코더는 혼잡한 주행 장면에서 효율적이고 정확한 3D 점유 예측을 가능하게 한다.
- Occ3D 데이터셋에는 Go(General Object) 클래스가 포함되어 있어 개방 세계 인식의 도전과제를 다룬다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.