QUICK REVIEW

[논문 리뷰] Cityscapes dataset for semantic urban scene understanding

Marius Cordts|arXiv (Cornell University)|2016. 04. 06.

Video Surveillance and Tracking Methods참고 문헌 14인용 수 1,003

한 줄 요약

본 논문은 Urban street scenes의 픽셀 수준 및 인스턴스 수준 의미 레이블링을 위한 대규모 데이터셋이자 벤치마크인 Cityscapes를 제시하며, 50개 도시 전역의 조밀한 세부 주석과 더 큰 거친 주석 세트를 포함합니다. 또한 벤치마크에서 최첨단 방법들을 평가하는 동반 연구도 제공합니다.

ABSTRACT

Visual understanding of complex urban street scenes is an enabling factor for a wide range of applications. Object detection has benefited enormously from large-scale datasets, especially in the context of deep learning. For semantic urban scene understanding, however, no current dataset adequately captures the complexity of real-world urban scenes. To address this, we introduce Cityscapes, a benchmark suite and large-scale dataset to train and test approaches for pixel-level and instance-level semantic labeling. Cityscapes is comprised of a large, diverse set of stereo video sequences recorded in streets from 50 different cities. 5000 of these images have high quality pixel-level annotations; 20000 additional images have coarse annotations to enable methods that leverage large volumes of weakly-labeled data. Crucially, our effort exceeds previous attempts in terms of dataset size, annotation richness, scene variability, and complexity. Our accompanying empirical study provides an in-depth analysis of the dataset characteristics, as well as a performance evaluation of several state-of-the-art approaches based on our benchmark.

연구 동기 및 목표

도시 도시 씬에서 의미 이해를 촉진하고 기존 데이터세트의 격차를 해소한다.
높은 품질의 픽셀 수준 및 인스턴스 수준 주석을 갖춘 대규모이고 다양한 데이터셋을 제공한다.
도시 주행 시나리오에서 픽셀 수준 및 인스턴스 수준 의미 레이블링 방법의 학습 및 평가를 가능하게 한다.
스테레오 깊이 정보와 방법 벤치마크를 위한 명확한 학습/검증/테스트 분할을 제공한다.

제안 방법

50개 도시의 이동 차량에서 수십만 프레임을 수집한다.
5000장의 이미지를 밀집 픽셀 수준 및 인스턴스 수준 주석으로 주석화하고, 20,000장의 이미지를 거친 주석으로 제공한다.
주석에 깊이 순서가 내재된 스테레오 HDR 및 LDR 이미지 쌍을 제공한다.
평가를 위해 8개 범주로 묶인 30개의 시각 클래스를 정의하고 벤치마크를 위한 19개 클래스를 가능하게 한다.

실험 결과

연구 질문

RQ1대규모이고 다양한 도시 도로 이미지 데이터셋이 자율 주행을 위한 의미 레이블링 성능을 어떻게 향상시킬 수 있는가?
RQ2고품질의 세부 주석 대 거친 주석이 세분화 성능에 어떤 영향을 미치는가?
RQ3풍부한 인스턴스 수준 주석 및 깊이 순서 주석이 적용된 데이터셋에서 최첨단 의미 레이블링 방법들은 어떻게 작동하는가?

주요 결과

Cityscapes는 크기, 주석의 풍부함, 장면 변동성, 복잡성 측면에서 기존 데이터셋을 능가한다.
데이터셋은 50개 도시에서 5,000장의 정밀 주석 이미지와 20,000장의 거친 주석 이미지를 포함한다.
공식 분할은 주석이 있는 2,975장의 학습 이미지, 500장의 검증 이미지, 1,525장의 테스트 이미지를 산출하며; 테스트 주석은 보류된다.
평가 결과 조도 및 온도 조건에 따라 성능 차이가 나며, 데이터셋에서 다양한 조건의 중요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.