[논문 리뷰] KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding in 2D and 3D
KITTI-360은 지리적으로 등록된 교외 주행 데이터셋으로, 밀집된 2D 및 3D 시맨틱/인스턴스 주석과 함께 비전-그래픽스-로봇공학을 잇는 새로운 뷰 합성 및 시맨틱 SLAM 벤치마크를 제시합니다.
For the last few decades, several major subfields of artificial intelligence including computer vision, graphics, and robotics have progressed largely independently from each other. Recently, however, the community has realized that progress towards robust intelligent systems such as self-driving cars requires a concerted effort across the different fields. This motivated us to develop KITTI-360, successor of the popular KITTI dataset. KITTI-360 is a suburban driving dataset which comprises richer input modalities, comprehensive semantic instance annotations and accurate localization to facilitate research at the intersection of vision, graphics and robotics. For efficient annotation, we created a tool to label 3D scenes with bounding primitives and developed a model that transfers this information into the 2D image domain, resulting in over 150k images and 1B 3D points with coherent semantic instance annotations across 2D and 3D. Moreover, we established benchmarks and baselines for several tasks relevant to mobile perception, encompassing problems from computer vision, graphics, and robotics on the same dataset, e.g., semantic scene understanding, novel view synthesis and semantic SLAM. KITTI-360 will enable progress at the intersection of these research areas and thus contribute towards solving one of today's grand challenges: the development of fully autonomous self-driving systems.
연구 동기 및 목표
- 자율주행을 위한 비전, 그래픽스, 로보틱스의 교차 지점에서 학제 간 진전을 촉진한다.
- KITTI보다 풍부하고 지리적으로 등록된 데이터셋을 제공하여 밀집된 2D/3D 시맨틱/인스턴스 라벨과 다중 모달 센싱을 제공한다.
- 다양한 시점에서 일관된 주석을 생성하기 위한 효율적인 3D-to-2D 라벨 전송을 개발한다.
- 새로운 데이터셋에서 시맨틱한 장면 이해, 새로운 시점 합성, 시맨틱 SLAM의 벤치마크를 확립한다.
제안 방법
- 3D로 주석된 경계 프리미티브를 사용하여 일관된 2D 픽셀 단위 레이블과 3D 포인트 단위 레이블을 얻도록 3D 주석을 도입한다.
- 3D에서 정적/동적 씬 요소를 주석화하기 위한 WebGL 기반 주석 도구를 개발한다.
- 3D 포인트와 2D 픽셀을 함께 고려하는 비지역 다중 필드 CRF를 통해 3D 라벨을 2D로 전이한다.
- 희소한 3D 포인트를 이미지에 투사하여 의미 있는 분절 네트워크(PSPNet)를 학습시키고 인스턴스 가설을 통합하여 학습 기반 선험 정보를 포함한다.
- 다중 프레임에 걸쳐 스테레오 및 레이저 스캔을 융합하여 밀집한 3D 정보와 완전한 라벨링을 위한 가상 하늘 포인트를 생성한다.
실험 결과
연구 질문
- RQ1실외 도시/교외 씬에서 2D와 3D 간의 밀집하고 일관된 시맨틱 및 인스턴스 주석은 어떻게 얻을 수 있는가?
- RQ2CRF를 통한 3D-에서 2D로의 라벨 전이가 순수한 2D 또는 순수한 3D 접근 방식보다 주석의 일관성과 정확성을 향상시킬 수 있는가?
- RQ3포괄적이고 지리적으로 등록된 도시 데이터셋에서 시맨틱 이해, 새로운 시점 합성, 시맨틱 SLAM을 평가하기 위한 효과적인 벤치마크는 무엇인가?
- RQ43D 주석이 비디오 프레임 및 360° 센서 데이터 간의 시간적으로 일관된 인스턴스 라벨링을 가능하게 하는가?
주요 결과
- 데이터셋은 300k장을 넘는 이미지와 80k개의 레이저 스캔으로 구성되며, 2D 및 3D에서 일관된 시맨틱 및 인스턴스 주석을 제공한다.
- WebGL 기반 3D 주석 도구는 정적/동적 요소의 라벨링을 가능하게 하여 밀집한 2D/3D 라벨과 프레임 간 일관된 인스턴스 ID를 산출한다.
- 학습된 unary/pairwise 항이 포함된 비지역 다중 필드 CRF를 통한 3D-에서 2D로의 라벨 전이는 순수 2D 방법과 순수 학습 기반 접근법보다 라벨링을 개선한다.
- 3D 주석과 2D 프로젝션의 통합은 시맨틱 장면 이해, 새로운 시점 합성, 시맨틱 SLAM을 포함한 새로운 벤치마크를 가능하게 한다.
- 논문은 주석이 시간 효율적이라고 보고한다(전체 배치 약 3시간, 개별 이미지 주석 시간을 고려하면 약 0.75분) 및 온라인 벤치마크가 보류되고 도전적이라고 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.