[论文解读] VectorMapNet: End-to-end Vectorized HD Map Learning
VectorMapNet 提出一个端到端的流程,从机载传感器在 BEV 中预测一组稀疏多段线,实现向量化的 HD 地图,无需栅格化或后处理,在 nuScenes 和 Argoverse2 上达到最先进的 mAP。
Autonomous driving systems require High-Definition (HD) semantic maps to navigate around urban roads. Existing solutions approach the semantic mapping problem by offline manual annotation, which suffers from serious scalability issues. Recent learning-based methods produce dense rasterized segmentation predictions to construct maps. However, these predictions do not include instance information of individual map elements and require heuristic post-processing to obtain vectorized maps. To tackle these challenges, we introduce an end-to-end vectorized HD map learning pipeline, termed VectorMapNet. VectorMapNet takes onboard sensor observations and predicts a sparse set of polylines in the bird's-eye view. This pipeline can explicitly model the spatial relation between map elements and generate vectorized maps that are friendly to downstream autonomous driving tasks. Extensive experiments show that VectorMapNet achieve strong map learning performance on both nuScenes and Argoverse2 dataset, surpassing previous state-of-the-art methods by 14.2 mAP and 14.6mAP. Qualitatively, VectorMapNet is capable of generating comprehensive maps and capturing fine-grained details of road geometry. To the best of our knowledge, VectorMapNet is the first work designed towards end-to-end vectorized map learning from onboard observations. Our project website is available at \url{https://tsinghua-mars-lab.github.io/vectormapnet/}.
研究动机与目标
- 推动在线 HD 语义地图学习,以克服离线 HD 地图的可扩展性问题。
- 提出使用多段线的向量化地图表示,以捕捉多样的地图几何形状和方向。
- 开发端到端架构,利用 BEV 特征检测地图要素并解码多段线,无需密集分割或后处理。
- 展示预测的向量地图与下游任务(如运动预测)的兼容性。
提出的方法
- 将多模态传感器输入(相机和 LiDAR)转换为 BEV 特征,形成规范的 BEV 表征。
- 通过使用带可学习元素查询的基于变压器的检测器,预测一组要素关键点及其类别来检测地图要素。
- 通过自回归的基于变压器的多段线生成器将每个检测到的要素解码为多段线,按顺序预测多段线顶点。
- 将多段线表示为离散顶点令牌序列以实现端到端学习,支持变长、方向感知的地图要素。
- 使用联合损失进行训练,结合检测器二分匹配损失和多段线生成负对数似然损失(教师强制,可选微调)。
- 使用 Chamfer 距离和 Fréchet 距离评估,将预测的多段线与真实值进行比较。
实验结果
研究问题
- RQ1端到端模型是否能够直接从机载传感器数据学习生成向量化 HD 地图,无需栅格化或后处理?
- RQ2将地图要素表示为多段线是否比栅格化地图提供更好的几何保真度和下游任务兼容性?
- RQ3在标准 HD 地图基准上,提出的 DETR 风格检测器及多段线下游解码在相机、LiDAR 与融合输入上的表现如何?
- RQ4关键点表示和自回归多段线生成对地图精度和下游运动预测的影响是什么?
主要发现
| 方法 | AP 行人 | AP 分隔线 | AP 边界 | mAP |
|---|---|---|---|---|
| STSU | 7.0 | 11.6 | 16.5 | 11.7 |
| HDMapNet (Camera) | 14.4 | 21.7 | 33.0 | 23.0 |
| HDMapNet (LiDAR) | 10.4 | 24.1 | 37.9 | 24.1 |
| HDMapNet (Fusion) | 16.3 | 29.6 | 46.7 | 31.0 |
| VectorMapNet (Camera) | 36.1 | 47.3 | 39.3 | 40.9 |
| VectorMapNet (Camera) + fine-tune | 42.5 | 51.4 | 44.1 | 46.0 |
| VectorMapNet (LiDAR) | 25.7 | 37.6 | 38.6 | 34.0 |
| VectorMapNet (Fusion) | 37.6 | 50.5 | 47.5 | 45.2 |
| VectorMapNet (Fusion) + fine-tune | 48.2 | 60.1 | 53.0 | 53.7 |
- VectorMapNet 在 nuScenes 的各输入模态上达到最先进的 mAP,Fusion 达到 53.7 mAP,其他变体也显著优于基线。
- 在 nuScenes 上,VectorMapNet(Camera)+ 微调达到 46.0 mAP,VectorMapNet(Fusion)达到 45.2 mAP,VectorMapNet(Fusion)+ 微调达到 53.7 mAP。
- 与 STSU 和 HDMapNet 基线相比,VectorMapNet 显著提高了 mAP(例如,在 nuScenes 上比 HDMapNet Fusion 提升 +14.2 mAP,较另一个基线提升 +14.6 mAP)。
- 定性结果显示 VectorMapNet 保留了多段线的尖锐转角,避免了栅格化方法常见的自环模糊,提升可行驶区域估计的准确性。
- 预测的向量地图可以显著提升下游运动预测,优于仅轨迹的基线,且接近使用真实 HD 地图的性能。
- 该模型也可以通过将中心线作为多段线来预测,展示了向量化表示的灵活性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。