QUICK REVIEW

[논문 리뷰] A2D2: Audi Autonomous Driving Dataset

Jakob Geyer, Yohannes Kassahun|arXiv (Cornell University)|2020. 04. 14.

Remote Sensing and LiDAR Applications참고 문헌 28인용 수 265

한 줄 요약

A2D2는 상업적으로 이용 가능하고 완전하게 동기화된 다중 모달 데이터셋(6대 카메라, 5대 LiDAR)을 제공하며 360도 커버리지, 시맨틱/인스턴스 세분화 및 3D 바운딩 박스 포함, 자율주행 연구를 위한 차량 버스 데이터도 풍부하게 제공하며 CC BY-ND 4.0 라이선스 하에 배포됩니다. 독일에서 라벨링된/비라벨링 시퀀스와 접근 튜토리얼 포함.

ABSTRACT

Research in machine learning, mobile robotics, and autonomous driving is accelerated by the availability of high quality annotated data. To this end, we release the Audi Autonomous Driving Dataset (A2D2). Our dataset consists of simultaneously recorded images and 3D point clouds, together with 3D bounding boxes, semantic segmentation, instance segmentation, and data extracted from the automotive bus. Our sensor suite consists of six cameras and five LiDAR units, providing full 360 degree coverage. The recorded data is time synchronized and mutually registered. Annotations are for non-sequential frames: 41,277 frames with semantic segmentation image and point cloud labels, of which 12,497 frames also have 3D bounding box annotations for objects within the field of view of the front camera. In addition, we provide 392,556 sequential frames of unannotated sensor data for recordings in three cities in the south of Germany. These sequences contain several loops. Faces and vehicle number plates are blurred due to GDPR legislation and to preserve anonymity. A2D2 is made available under the CC BY-ND 4.0 license, permitting commercial use subject to the terms of the license. Data and further information are available at http://www.a2d2.audi.

연구 동기 및 목표

자商业적으로 사용 가능한 자세히 주석이 달린 데이터셋을 제공함으로써 자율주행 연구를 촉진한다.
전방 위치의 전 영역에 걸친 카메라와 LiDAR 데이터를 글로벌 프레임에 동기화하여 제공한다.
종단 간 및 강화 학습 연구를 가능하게 하는 광범위한 차량 버스 데이터를 포함한다.
커뮤니티 채택을 용이하게 하기 위한 익명 처리 데이터와 튜토리얼을 제공한다.
모드 간 인식 알고리즘을 비교하기 위한 벤치마크와 챌린지를 가능하게 한다.

제안 방법

여섯 대의 카메라와 다섯 대의 Velodyne VLP-16 LiDAR를 탑재한 Audi Q7 e-tron에서 데이터 수집.
공통 글로벌 참조 프레임에 대한 센서 보정 및 정합을 엄격하게 수행.
38개 클래스로 41,277 프레임에 대한 시맨틱 및 인스턴스 세분화 주석을 수행.
전면 카메라 FOV 내 12,497 프레임에 대한 3D 바운딩 박스를 제공.
주석 없이 392,556개의 시퀀스를 자기지도 학습 또는 SLAM 연구를 위해 공개.
ResNet-101 인코더와 PSP-Net 디코더를 사용하는 기초 시맨틱 세분화 실험。

실험 결과

연구 질문

RQ1다중 모달 서라운드 센서 자동차 데이터셋이 지각 및 SLAM 알고리즘 개발을 어떻게 지원할 수 있는가?
RQ2A2D2에서 사전 학습 가중치와 익명화가 시맨틱 세분화 성능에 미치는 영향은 무엇인가?
RQ3데이터셋의 차량 버스 데이터 포함이 객체 탐지 이상으로 확장된 연구(예: 엔드 투 엔드 또는 강화 학습)에 기여하는가?

주요 결과

아키텍처/학습	평균 IoU
Baseline (ResNet-101 + PSP-Net)	71.01%
With pre-trained weights (ResNet-50 + PSP-Net)	68.40%
Without pre-trained weights (ResNet-50 + PSP-Net)	65.31%
With anonymized images (ResNet-101 + PSP-Net)	70.94%

데이터셋은 시맨틱/인스턴스 라벨이 부착된 41,277개 이미지와 프런트-카메라 FOV에서 3D 바운딩 박스가 있는 12,497 프레임을 제공합니다.
다섯 대의 LiDAR와 여섯 대의 카메라가 시간 동기화된 등록 데이터로 360도 전체 커버리지를 제공합니다.
시맨틱 세분화 모델은 18개 전경 클래스에서 평균 IoU가 71.01%입니다(베이스라인 ResNet-101 + PSP-Net).
ImageNet 사전 학습 가중치를 사용하면 평균 IoU가 71.01%(베이스라인)로 향상되며 대안은 68.40%(ResNet-50 + PSP-Net), 사전 학습 없이 65.31%입니다.
익명화(얼굴/번호판 흐림 처리)가 평균 IoU에 미치는 영향은 비익명화 베이스라인(71.01%)에 비해 미미하며 70.94%입니다.
데이터셋은 주석 없는 시퀀스와 차량 버스 데이터를 통해 엔드 투 엔드 및 자기지도 학습을 지원합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.