QUICK REVIEW

[논문 리뷰] Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving

Xiao Yu Tian, Tao Jiang|arXiv (Cornell University)|2023. 04. 27.

Advanced Vision and Imaging인용 수 55

한 줄 요약

Occ3D는 dense 라벨 생성 파이프라인과 벤치마크에서 최첨단 성능을 달성하는 새로운 CTF-Occ 네트워크를 갖춘 두 개의 대규모 3D 점유 예측 벤치마크(Occ3D-Waymo 및 Occ3D-nuScenes)를 도입한다.

ABSTRACT

Robotic perception requires the modeling of both 3D geometry and semantics. Existing methods typically focus on estimating 3D bounding boxes, neglecting finer geometric details and struggling to handle general, out-of-vocabulary objects. 3D occupancy prediction, which estimates the detailed occupancy states and semantics of a scene, is an emerging task to overcome these limitations. To support 3D occupancy prediction, we develop a label generation pipeline that produces dense, visibility-aware labels for any given scene. This pipeline comprises three stages: voxel densification, occlusion reasoning, and image-guided voxel refinement. We establish two benchmarks, derived from the Waymo Open Dataset and the nuScenes Dataset, namely Occ3D-Waymo and Occ3D-nuScenes benchmarks. Furthermore, we provide an extensive analysis of the proposed dataset with various baseline models. Lastly, we propose a new model, dubbed Coarse-to-Fine Occupancy (CTF-Occ) network, which demonstrates superior performance on the Occ3D benchmarks. The code, data, and benchmarks are released at https://tsinghua-mars-lab.github.io/Occ3D/.

연구 동기 및 목표

3D 점유 예측을 전통적인 3D 탐지 및 SSC의 자세한 대안으로 제시하여 더 풍부한 기하학 및 개방형 세계 의미를 강화한다.
복셀 밀도 증가–가려진 상태 추론–이미지 가이드 정제 파이프라인을 통해 고품질의 Dense 점유 라벨을 제공한다.
Waymo Open Dataset 및 nuScenes에서 파생된 Occ3D-Waymo 및 Occ3D-nuScenes 벤치마크를 설정하여 종합적인 평가를 가능하게 한다.
벤치마크에서의 Occ3D를 현실화하고 기본 방법을 분석하여 3D 점유 예측 연구를 촉진한다.
Coarse-to-Fine Occupancy (CTF-Occ) 네트워크를 제안하고 검증하여 Occ3D에서 우수한 성능을 달성한다.

제안 방법

3단계 라벨 생성 파이프라인(보셋 밀도 증가, 가려짐 추론, 이미지 가이드 보셈 정제)을 개발한다.
dense하고 가시성 인식 보셀 라벨을 갖춘 Waymo Open Dataset 및 nuScenes를 기반으로 두 벤치마크(Occ3D-Waymo 및 Occ3D-nuScenes)를 생성한다.
교차 주의(Cross-Attention)를 통해 2D 이미지 특징을 3D 공간으로 모으는 트랜스포머 기반 네트워크인 CTF-Occ를 제안하며, 거친-정교한 보셀 인코더로 구동한다.
교차 주의 중 비어 있지 않거나 불확실한 보셀에 계산을 집중시키기 위한 증분 토큰 선택을 도입한다.
공간 교차 주의와 암시적 점유 디코더를 갖춘 피라미드 보셀 인코더를 사용하여 고해상도 점유 예측을 수행한다.
다층 보셀 점유를 감독하기 위해 OHEM 손실과 보조 이진 보셀 마스크를 사용하여 학습한다.

실험 결과

연구 질문

RQ1기존 LiDAR 및 이미지 데이터로부터 Dense하고 가시성 인식이 반영된 보셀 라벨을 어떻게 생성하여 3D 점유 예측을 가능하게 할 수 있는가?
RQ2자율주행용 대규모 주변 뷰 데이터셋에서 기존 3D 점유 방법의 성능은 어떠한가?
RQ3거친-정교한 보셀 인코딩 전략이 3D 점유 예측의 정확도와 효율성을 개선할 수 있는가?
RQ4Cross-Attention과 Incremental Token Selection이 담긴 트랜스포머 기반 아키텍처가 Occ3D에서 우수한 3D 점유 예측을 제공하는가?
RQ5개방형 세계 인식 문제를 다루기 위해 점유 예측 벤치마크에 GO(General Object) 클래스를 포함하는 것이 미치는 영향은 무엇인가?

주요 결과

Occ3D는 Dense하고 가시성 인식이 반영된 보셀 라벨을 갖춘 두 개의 대규모 벤치마크인 Occ3D-Waymo 및 Occ3D-nuScenes를 도입한다.
CTF-Occ는 Occ3D-nuScenes에서 강력한 베이스라인(BEVFormer 등)을 약 1.65 mIoU만큼 상회한다.
Occ3D-Waymo에서 CTF-Occ는 이전 방법 대비 mIoU를 약 1.97 증가시키고 특정 객체에서 더 큰 이득을 보이며(예: 교통 원추 +2.88 IoU, 차량 +10.23 IoU) 더 큰 개선을 보인다.
레이블 생성 파이프라인(보셀 밀도 증가, 가려짐 추론, 이미지 가이드 정제)은 3D-2D 일관성과 더 높은 품질의 점유 주석을 향상시킨다.
증분 토큰 선택과 교차 주의가 결합된 거친-정교한 보셀 인코더는 혼잡한 주행 장면에서 효율적이고 정확한 3D 점유 예측을 가능하게 한다.
Occ3D 데이터셋에는 Go(General Object) 클래스가 포함되어 있어 개방 세계 인식의 도전과제를 다룬다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.