Skip to main content
QUICK REVIEW

[论文解读] Scalability in Perception for Autonomous Driving: Waymo Open Dataset

Pei Sun, Henrik Kretzschmar|arXiv (Cornell University)|Dec 10, 2019
Video Surveillance and Tracking Methods参考文献 21被引用 228
一句话总结

引入一个大规模的多模态 Waymo Open Dataset,包含同步的 LiDAR 与相机数据、广泛的 3D/2D 注释,以及基线,用于研究自主驾驶感知的可扩展性和地理区域泛化能力。

ABSTRACT

The research community has increasing interest in autonomous driving research, despite the resource intensity of obtaining representative real world data. Existing self-driving datasets are limited in the scale and variation of the environments they capture, even though generalization within and between operating regions is crucial to the overall viability of the technology. In an effort to help align the research community's contributions with real-world self-driving problems, we introduce a new large scale, high quality, diverse dataset. Our new dataset consists of 1150 scenes that each span 20 seconds, consisting of well synchronized and calibrated high quality LiDAR and camera data captured across a range of urban and suburban geographies. It is 15x more diverse than the largest camera+LiDAR dataset available based on our proposed diversity metric. We exhaustively annotated this data with 2D (camera image) and 3D (LiDAR) bounding boxes, with consistent identifiers across frames. Finally, we provide strong baselines for 2D as well as 3D detection and tracking tasks. We further study the effects of dataset size and generalization across geographies on 3D detection methods. Find data, code and more up-to-date information at http://www.waymo.com/open.

研究动机与目标

  • 通过发布一个大规模、多样化、多模态的数据集,激励并推动自动驾驶感知的可扩展性研究。
  • 提供高质量、全面注释的 LiDAR 和相机数据,配有一致的跟踪ID,以支持检测和跟踪任务。
  • 考察数据集规模和地理域差距如何影响 3D 感知方法以及跨地理区域的泛化能力。

提出的方法

  • 汇集来自多个城市(城市/郊区)的同步 LiDAR 和相机数据,构建一个大型多模态数据集,并提供精确的标定和同步数据。
  • 为 LiDAR 注释 3D 边界框,为相机影像注释 2D 框,并在各帧中保留一致的跟踪ID,以支持跟踪。
  • 定义 2D 与 3D 检测和跟踪基准,采用专门的度量标准,包括用于 3D 检测的 APH(heading-aware AP)以及基于 MOT 的跟踪指标。
  • 建立强基线,使用当代检测器(3D LiDAR 的 PointPillars,2D 的 Faster R-CNN)以及基于检测的跟踪框架,并在城市之间进行域差分析。
  • 提供数据集分析工具和一种考虑滚动快门的相机-LiDAR 投影方法,以促进传感器融合研究。

实验结果

研究问题

  • RQ1数据集规模的增加如何影响基于 3D LiDAR 的目标检测和头向估计的性能?
  • RQ2地理域差距(例如不同城市之间)对检测器和跟踪器的性能有何影响,以及域适应如何帮助?
  • RQ3联合传感器融合(LiDAR + 相机)和精确同步是否能够改进 3D 与 2D 感知基准?
  • RQ4数据集的多样性(城市与郊区、时间、通过地理间接体现的天气)如何影响感知模型的泛化性?
  • RQ5在本数据集上可以建立的 2D 与 3D 目标检测及跟踪的基线性能是多少?

主要发现

  • 该数据集在地理区域之间存在明显的域差,为域适应研究提供机会。
  • 基线结果显示 3D LiDAR 与 2D 相机检测以及跟踪的性能都很强,在不同距离和对象类别上存在可测量的差异。
  • 更大且更具多样性的数据集在提升感知性能方面具有明显好处,尤其是对数据密集型模型。
  • 传感器同步和 LiDAR range-image 表征为跨域学习和替代输入表示提供了有用的途径。
  • 域差分析表明在一个城市上训练、在另一个城市测试会显著影响 APH/AP 指标,突显了需要域感知的训练策略。
  • 该数据集通过一致的对象ID和多传感器融合,支持稳健的 3D 与 2D 跟踪,能够进行全面的 MOT 评估。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。