[论文解读] One Thousand and One Hours: Self-driving Motion Prediction Dataset
本论文发布了迄今为今最大规模的自动驾驶运动预测数据集,涵盖1,118小时、170,000个场景,以及详尽的高清语义地图与航空影像,并提供用于运动预测与规划的L5Kit工具与基线模型。
Motivated by the impact of large-scale datasets on ML systems we present the largest self-driving dataset for motion prediction to date, containing over 1,000 hours of data. This was collected by a fleet of 20 autonomous vehicles along a fixed route in Palo Alto, California, over a four-month period. It consists of 170,000 scenes, where each scene is 25 seconds long and captures the perception output of the self-driving system, which encodes the precise positions and motions of nearby vehicles, cyclists, and pedestrians over time. On top of this, the dataset contains a high-definition semantic map with 15,242 labelled elements and a high-definition aerial view over the area. We show that using a dataset of this size dramatically improves performance for key self-driving problems. Combined with the provided software kit, this collection forms the largest and most detailed dataset to date for the development of self-driving machine learning tasks, such as motion forecasting, motion planning and simulation. The full dataset is available at http://level5.lyft.com/.
研究动机与目标
- 强调大规模数据对自动驾驶运动预测与规划的影响。
- 提供一个详细的、路线特定的数据集,具有丰富的语义地图和影像,以支持下游机器学习任务。
- 提供开源工具包(L5Kit)和基线模型,促进研究与评估。
提出的方法
- 从固定的Palo Alto路线,使用20辆车辆,整理一个包含170,000个场景(每场景25s,10 Hz)的大规模数据集。
- 提供高清语义地图,含15,242个标注和8,505个车道段,以及74平方公里的航空影像地图。
- 发布L5Kit,一个用于数据访问、可视化和运动预测与规划基线的Python工具包。
- 使用BEV栅格和带历史信息的ResNet-50框架,建立基线运动预测。
- 通过训练模型预测并执行5秒视野的轨迹,并引入扰动以缓解累积误差,展示规划基线。
实验结果
研究问题
- RQ1规模(小时、场景和参与者)如何影响自动驾驶系统中的运动预测准确性和规划性能?
- RQ2详细的高清语义地图和航空环境在预测未来参与者运动方面提供了哪些价值?
- RQ3能否在开放数据集上通过闭环仿真有效评估开源机器学习驱动的规划?
- RQ4基于该数据集训练的基线模型与以感知为中心的基线在预测与规划方面的对比如何?
主要发现
| 指标 | 数值 |
|---|---|
| Self-driving vehicles used | 20 |
| Total dataset size (hours / km / scenes) | 1,118 / 26,344 / 162k |
| Training set size (hours / km / scenes) | 928 / 21,849 / 134k |
| Validation set size (hours / km / scenes) | 78 / 1,840 / 11k |
| Test set size (hours / km / scenes) | 112 / 2,656 / 16k |
| Scene length (seconds) | 25 |
| Total traffic observations | 3,187,838,149 |
| Average detections per frame | 79 |
| Labels (Car / Pedestrian / Cyclist) | 92.47% / 5.91% / 1.62% |
| Semantic map elements | 15,242 annotations / 8,505 lane segments |
| Aerial map area | 74 km^2 at 6 cm per pixel |
- 数据集包括1,118小时、26,344公里、以及跨20辆车的162k场景。
- 高清语义地图包含15,242个标注和8,505个车道段,以及覆盖74平方公里的高分辨率航空影像。
- 运动预测基线随着训练数据的增加,位移/误差指标有所改善,并从历史信息中获益。
- 规划基线在较大训练数据量和引入合成扰动以缓解累积误差的情况下,闭环性能有所提升。
- 数据集与L5Kit使基于ML的规划开放评估成为可能,此前主要通过专有数据进行。
- 预测与规划性能随数据集大小看起来尚未达到饱和,可能在数万到数百万小时的规模上取得进一步提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。