[论文解读] Cityscapes dataset for semantic urban scene understanding
本论文介绍 Cityscapes,一个大规模数据集与基准,用于城市街景像素级和实例级语义标注,具有密集的细粒注释以及跨 50 个城市的更大粗粒注释集。它还提供一个随附研究,评估基准上的最先进方法。
Visual understanding of complex urban street scenes is an enabling factor for a wide range of applications. Object detection has benefited enormously from large-scale datasets, especially in the context of deep learning. For semantic urban scene understanding, however, no current dataset adequately captures the complexity of real-world urban scenes. To address this, we introduce Cityscapes, a benchmark suite and large-scale dataset to train and test approaches for pixel-level and instance-level semantic labeling. Cityscapes is comprised of a large, diverse set of stereo video sequences recorded in streets from 50 different cities. 5000 of these images have high quality pixel-level annotations; 20000 additional images have coarse annotations to enable methods that leverage large volumes of weakly-labeled data. Crucially, our effort exceeds previous attempts in terms of dataset size, annotation richness, scene variability, and complexity. Our accompanying empirical study provides an in-depth analysis of the dataset characteristics, as well as a performance evaluation of several state-of-the-art approaches based on our benchmark.
研究动机与目标
- 推动城市场景语义理解并解决现有数据集的不足。
- 提供一个大规模、多样化的数据集,具备高质量的像素级和实例级注释。
- 在城市驾驶场景中促成像素级和实例级语义标注方法的训练与评估。
- 提供立体声深度信息以及清晰定义的 train/val/test 拆分以基准方法。
提出的方法
- 在50座城市中从移动车辆收集数十万帧。
- 用密集的像素级、实例级标签标注5000张图像;提供20,000张带粗注释的图像。
- 提供具有深度排序在注释中隐含的立体HDR和LDR图像对。
- 定义30个视觉类别分为8个类别以用于评估,使19个类别可用于基准测试。
实验结果
研究问题
- RQ1如何通过大规模、多样化的城市街景图像数据集提升自动驾驶的语义标注性能?
- RQ2高质量细注释相对于粗注释对分割性能有何影响?
- RQ3在具备丰富实例级和深度排序注释的数据集上,最先进的语义标注方法的表现如何?
主要发现
- Cityscapes 在规模、注释丰富性、场景变异性和复杂性方面超越了之前的数据集。
- 该数据集包含来自50个城市的5,000张精细注释图像和20,000张粗注释图像。
- 官方划分产生2,975张训练、500张验证、1,525张带注释的测试图像;测试注释被保留。
- 评估显示性能差异与光照与温度条件一致,强调数据集中多样条件的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。