[논문 리뷰] Cityscapes 3D: Dataset and Benchmark for 9 DoF Vehicle Detection
Cityscapes 3D는 Cityscapes를 스테레오 기반 3D 차량 바운딩 박스로 확장하여 아홉 자유도, 단일 카메라 3D 벤치마크 및 RGB 전용 3D 탐지를 위한 거리 인식 메트릭을 포함합니다.
Detecting vehicles and representing their position and orientation in the three dimensional space is a key technology for autonomous driving. Recently, methods for 3D vehicle detection solely based on monocular RGB images gained popularity. In order to facilitate this task as well as to compare and drive state-of-the-art methods, several new datasets and benchmarks have been published. Ground truth annotations of vehicles are usually obtained using lidar point clouds, which often induces errors due to imperfect calibration or synchronization between both sensors. To this end, we propose Cityscapes 3D, extending the original Cityscapes dataset with 3D bounding box annotations for all types of vehicles. In contrast to existing datasets, our 3D annotations were labeled using stereo RGB images only and capture all nine degrees of freedom. This leads to a pixel-accurate reprojection in the RGB image and a higher range of annotations compared to lidar-based approaches. In order to ease multitask learning, we provide a pairing of 2D instance segments with 3D bounding boxes. In addition, we complement the Cityscapes benchmark suite with 3D vehicle detection based on the new annotations as well as metrics presented in this work. Dataset and benchmark are available online.
연구 동기 및 목표
- 단일 RGB 기반 탐지를 위한 고품질 3D 차량 주석으로 Cityscapes를 확장합니다.
- 차량에 대한 전체 3D 자세(yaw, pitch, roll)와 아홉 자유도 정보를 제공합니다.
- 다중 작업 학습을 촉진하기 위해 2D 인스턴스 마스크와 3D 박스를 쌍으로 제공합니다.
- 거리 의존 평가 메트릭이 있는 모노큘러 3D 탐지 벤치마크를 도입합니다.
- 주석의 일관성을 보장하고 기존 Cityscapes 작업과의 비교를 용이하게 합니다.]
- method:[
- 스테레오 RGB 이미지만 사용하여 모든 차량 유형에 대한 3D 바운딩 박스를 주석합니다.
- 스테레오 포인트 클라우드와 크기 프로토타입을 사용하여 초기 3D 박스 표기를 안정화하고 깊이-크기 모호성을 줄입니다.
- RGB 이미지 맥락에서 각 차량에 대한 전체 3D 방향(yaw, pitch, roll)을 제공합니다.
- 각 3D 박스를 해당 2D 인스턴스 마스크 및 메타데이터(occlusion, truncation, size prototype)와 페어링합니다.
- 2D IoU 기반 매칭 및 새로운 깊이 의존 메트릭으로 Cityscapes 정렬 평가 프로토콜을 채택합니다.
- 8개 차종에 걸친 평균 탐지 점수(mDS)를 보고하는 벤치마크 모음을 제공합니다.
실험 결과
연구 질문
- RQ1스테레오 파생 주석을 실제 정답으로 사용하여 단일 RGB 기반 방법이 아홉 자유도(9-DoF)의 3D 차량 바운딩 박스를 신뢰할 수 있게 탐지할 수 있는가?
- RQ2자기 차량까지의 거리(ego-vehicle) 가 단일 카메라 3D 탐지에서 3D 위치 추정, 방향, 크기 정확도에 어떤 영향을 미치는가?
- RQ3쌍으로 이루어진 2D 인스턴스 세그먼트와 3D 박스가 단일 카메라 3D 인식의 다중 작업 학습을 개선하는가?
- RQ4Lidar 기반 주석과 비교했을 때 스테레오 파생 주석을 사용한 이미지 공간 투영과 3D 실제 값 간 정렬에 어떤 영향이 있는가?
- RQ5새로운 깊이 인식 메트릭이 거리 범위에 걸친 모노큘러 3D 탐지 성능 평가를 어떻게 더 잘 개선할 수 있는가?
주요 결과
- Cityscapes 3D는 스테레오 이미지를 사용하여 여덟 가지 차량 관련 의미 클래스에 대한 3D 차량 주석을 제공하고 모노큘러 3D 벤치마크를 가능하게 합니다.
- 주석 품질은 Synscapes 정답과 대조 검증되어, 테스트 이미지에서 yaw 오차를 2.1도 이하, 중심 위치 오차를 1미터 이하로 나타냅니다.
- 데이터세트는 많은 베이스라인보다 이미지당 객체 밀도가 높아 3D 단일 카메라 탐지의 도전적인 장면을 강조합니다.
- 제안된 메트릭과 거리 구간에 의해 거리 의존 평가가 성능 변동을 드러냅니다.
- 벤치마크는 표준 2D AP와 깊이 의존 진양성을 결합하여 3D 위치 추정 및 방향의 정확성을 선호하는 Detection Score를 산출합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.