QUICK REVIEW

[논문 리뷰] D$^2$-City: A Large-Scale Dashcam Video Dataset of Diverse Traffic Scenarios

Zhengping Che, Max Guangyu Li|arXiv (Cornell University)|2019. 04. 03.

Advanced Neural Network Applications참고 문헌 18인용 수 39

한 줄 요약

D2-City는 중국의 1,000개 비디오에서 밀집된 12-클래스 객체 탐지 및 트래킹 주석과 나머지 비디오에 대한 키프레임 주석을 제공하여 대규모 탐지, 트래킹 및 보간 작업을 가능하게 한다.

ABSTRACT

Driving datasets accelerate the development of intelligent driving and related computer vision technologies, while substantial and detailed annotations serve as fuels and powers to boost the efficacy of such datasets to improve learning-based models. We propose D$^2$-City, a large-scale comprehensive collection of dashcam videos collected by vehicles on DiDi's platform. D$^2$-City contains more than 10000 video clips which deeply reflect the diversity and complexity of real-world traffic scenarios in China. We also provide bounding boxes and tracking annotations of 12 classes of objects in all frames of 1000 videos and detection annotations on keyframes for the remainder of the videos. Compared with existing datasets, D$^2$-City features data in varying weather, road, and traffic conditions and a huge amount of elaborate detection and tracking annotations. By bringing a diverse set of challenging cases to the community, we expect the D$^2$-City dataset will advance the perception and related areas of intelligent driving.

연구 동기 및 목표

중국의 실제 교통 상황을 반영한 대규모의 다양성 있는 대시캠 영상 데이터셋을 제공한다.
1,000개의 비디오에 걸쳐 12개의 도로 객체 클래스에 대한 밀집 바운딩 박스 및 트래킹 주석을 제공한다.
주행 맥락에서 객체 탐지, 다객체 트래킹, 대규모 탐지 보간에 대한 벤치마킹을 가능하게 한다.

제안 방법

중국 다섯 도시 전역의 DiDi 플랫폼에서 11,211개가 넘는 대시캠 동영상을 수집한다.
1,000개 비디오의 모든 프레임에 대해 12개 클래스의 바운딩 박스와 트래킹 ID를 주석 처리하고, 나머지 비디오에는 키프레임 탐지를 제공한다.
CVAT 기반 주석 플랫폼을 사용하여 프레임 전파와 mean-shift 보간으로 품질과 효율의 균형을 맞춘다.
개인정보 보호를 위해 번호판과 얼굴을 흐리게 처리하고; 타임스탬프를 흐리게 처리하며; 정보 보안 및 정책 준수를 보장한다.
1,000개 주석 비디오를 학습(700), 검증(100), 테스트(200) 세트로 분할하고; 학습/검증 주석을 공개적으로 공개한다.

실험 결과

연구 질문

RQ1다양한 기상, 도로 및 교통 조건에서 D2-City 데이터셋이 견고한 탐지와 트래킹을 어떻게 지원하는가?
RQ2데이터셋 전체의 객체 및 바운딩 박스의 통계(개수, 가림, 잘림)는 어떠한가?
RQ3밀집 per-frame 레이블 외에도 많은 키프레임 주석을 제공하여 대규모 탐지 보간을 가능하게 할 수 있는가?
RQ4수집된 비디오에서 도로 유형, 교통 모드 및 자차(ego-vehicle) 행동의 분포는 어떠한가?

주요 결과

데이터셋은 약 500대의 차량으로부터 5개 도시에서 수집된 약 11,211개의 운전 영상으로 총 약 100시간에 이른다.
1,000개의 비디오(700,000프레임 이상)에는 12개 객체 클래스가 바운딩 박스와 트래킹 ID로 밀집 주석이 되어 있으며, 남은 비디오에는 보간 작업을 위한 키프레임 탐지가 있다.
수집 영상은 도시 및 교외의 다양한 도로 유형과 조건, 다양한 속도, 교차로가 잦은 구간(평균 30초 클립당 교차로 수 0.26) 등을 포함한다.
프레임당 평균 장면 통계는 약 5.37대의 자동차와 0.85명의 보행자, 객체의 45.23%가 가려져 있으며 5.71%가 잘려 있다.
해상도(720p 및 1080p) 간 바운딩 박스 분석은 모든 클래스의 평균/중앙값 객체 크기를 제공하며, 트래킹 주석은 비디오당 상당한 객체 수를 나타낸다(예: 비디오당 33.48대의 자동차, 8.46명의 보행자).
데이터세트는 삼륜차(개방/폐쇄 삼륜차)에 초점을 맞추고 있으며 해당될 때 승객과 차량을 연결하는 group_id 메커니즘을 포함한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.