Skip to main content
QUICK REVIEW

[논문 리뷰] Cityscapes dataset for semantic urban scene understanding

Marius Cordts|arXiv (Cornell University)|2016. 04. 06.
Video Surveillance and Tracking Methods참고 문헌 14인용 수 1,003
한 줄 요약

본 논문은 Urban street scenes의 픽셀 수준 및 인스턴스 수준 의미 레이블링을 위한 대규모 데이터셋이자 벤치마크인 Cityscapes를 제시하며, 50개 도시 전역의 조밀한 세부 주석과 더 큰 거친 주석 세트를 포함합니다. 또한 벤치마크에서 최첨단 방법들을 평가하는 동반 연구도 제공합니다.

ABSTRACT

Visual understanding of complex urban street scenes is an enabling factor for a wide range of applications. Object detection has benefited enormously from large-scale datasets, especially in the context of deep learning. For semantic urban scene understanding, however, no current dataset adequately captures the complexity of real-world urban scenes. To address this, we introduce Cityscapes, a benchmark suite and large-scale dataset to train and test approaches for pixel-level and instance-level semantic labeling. Cityscapes is comprised of a large, diverse set of stereo video sequences recorded in streets from 50 different cities. 5000 of these images have high quality pixel-level annotations; 20000 additional images have coarse annotations to enable methods that leverage large volumes of weakly-labeled data. Crucially, our effort exceeds previous attempts in terms of dataset size, annotation richness, scene variability, and complexity. Our accompanying empirical study provides an in-depth analysis of the dataset characteristics, as well as a performance evaluation of several state-of-the-art approaches based on our benchmark.

연구 동기 및 목표

  • 도시 도시 씬에서 의미 이해를 촉진하고 기존 데이터세트의 격차를 해소한다.
  • 높은 품질의 픽셀 수준 및 인스턴스 수준 주석을 갖춘 대규모이고 다양한 데이터셋을 제공한다.
  • 도시 주행 시나리오에서 픽셀 수준 및 인스턴스 수준 의미 레이블링 방법의 학습 및 평가를 가능하게 한다.
  • 스테레오 깊이 정보와 방법 벤치마크를 위한 명확한 학습/검증/테스트 분할을 제공한다.

제안 방법

  • 50개 도시의 이동 차량에서 수십만 프레임을 수집한다.
  • 5000장의 이미지를 밀집 픽셀 수준 및 인스턴스 수준 주석으로 주석화하고, 20,000장의 이미지를 거친 주석으로 제공한다.
  • 주석에 깊이 순서가 내재된 스테레오 HDR 및 LDR 이미지 쌍을 제공한다.
  • 평가를 위해 8개 범주로 묶인 30개의 시각 클래스를 정의하고 벤치마크를 위한 19개 클래스를 가능하게 한다.

실험 결과

연구 질문

  • RQ1대규모이고 다양한 도시 도로 이미지 데이터셋이 자율 주행을 위한 의미 레이블링 성능을 어떻게 향상시킬 수 있는가?
  • RQ2고품질의 세부 주석 대 거친 주석이 세분화 성능에 어떤 영향을 미치는가?
  • RQ3풍부한 인스턴스 수준 주석 및 깊이 순서 주석이 적용된 데이터셋에서 최첨단 의미 레이블링 방법들은 어떻게 작동하는가?

주요 결과

  • Cityscapes는 크기, 주석의 풍부함, 장면 변동성, 복잡성 측면에서 기존 데이터셋을 능가한다.
  • 데이터셋은 50개 도시에서 5,000장의 정밀 주석 이미지와 20,000장의 거친 주석 이미지를 포함한다.
  • 공식 분할은 주석이 있는 2,975장의 학습 이미지, 500장의 검증 이미지, 1,525장의 테스트 이미지를 산출하며; 테스트 주석은 보류된다.
  • 평가 결과 조도 및 온도 조건에 따라 성능 차이가 나며, 데이터셋에서 다양한 조건의 중요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.