[论文解读] InstaGraM: Instance-level Graph Modeling for Vectorized HD Map Learning
InstaGraM 提供了一个端到端的 CNN-GNN 流水线,通过在 BEV 空间检测顶点点和边缘图并将它们与实例级图关联来预测向量化的 HD 地图多段线元素,相较于先前的向量化 HD 地图方法实现更快的推理和更高的 mAP。
For scalable autonomous driving, a robust map-based localization system, independent of GPS, is fundamental. To achieve such map-based localization, online high-definition (HD) map construction plays a significant role in accurate estimation of the pose. Although recent advancements in online HD map construction have predominantly investigated on vectorized representation due to its effectiveness, they suffer from computational cost and fixed parametric model, which limit scalability. To alleviate these limitations, we propose a novel HD map learning framework that leverages graph modeling. This framework is designed to learn the construction of diverse geometric shapes, thereby enhancing the scalability of HD map construction. Our approach involves representing the map elements as an instance-level graph by decomposing them into vertices and edges to facilitate accurate and efficient end-to-end vectorized HD map learning. Furthermore, we introduce an association strategy using a Graph Neural Network to efficiently handle the complex geometry of various map elements, while maintaining scalability. Comprehensive experiments on public open dataset show that our proposed network outperforms state-of-the-art model by $1.6$ mAP. We further showcase the superior scalability of our approach compared to state-of-the-art methods, achieving a $4.8$ mAP improvement in long range configuration. Our code is available at https://github.com/juyebshin/InstaGraM.
研究动机与目标
- 推动在线 HD 地图学习,避免离线预构建地图,以实现可扩展的自动驾驶。
- 提出一种基于图的向量化 HD 地图元素(多段线)的表示,结合几何信息、语义信息和实例信息。
- 开发一个端到端网络(BEV 特征提取、元素检测和基于图的关联)以实现实时性能。
- 证明所提方法在 nuScenes 上在精度和速度方面超越最新的向量化 HD 地图方法。
提出的方法
- 通过神经视图变换从多视图图像使用统一的 BEV 特征提取。
- 使用兴趣点解码器检测地图元素顶点以生成顶点热力图。
- 通过基于距离变换的边解码器预测局部边缘图以编码方向信息。
- 基于顶点嵌入和局部边信息构建初始图。
- 应用带注意力的图神经网络(类似 SuperGlue)通过基于 Sinkhorn 的最优匹配来预测实例级邻接关系。
- 端到端训练,损失包括顶点热力图、距离变换、邻接关系和顶点分类。
实验结果
研究问题
- RQ1实例级图模型是否能够有效地从多摄像机 BEV 特征重建向量化的 HD 地图元素(多段线)?
- RQ2将距离变换基的边信息和位置嵌入结合起来,是否能够改善地图顶点之间的对应和邻接预测?
- RQ3在 camera-only 输入下,InstaGraM 相比现有向量化 HD 地图方法在 nuScenes 上的精度(mAP)和速度(FPS)表现如何?
- RQ4BEV 变换选择和 GNN 层数对整体性能有何影响?
主要发现
| Method | AP_divider | AP_ped | AP_boundary | mAP | FPS |
|---|---|---|---|---|---|
| InstaGraM (EffiNet-B0, 30 epochs) | 40.8 | 30.0 | 39.2 | 36.7 | 20.3 |
| InstaGraM (EffiNet-B4, 30 epochs) | 47.2 | 33.8 | 44.0 | 41.7 | 18.2 |
- InstaGraM 在 camera 模态下的推理更快,mAP 高于 HDMapNet,并且对 VectorMapNet 具有竞争力的性能。
- 在 EfficientNet-B4 骨干网络下,InstaGraM 使用相机输入,在 nuScenes 上达到 mAP 41.7 和 18.2 FPS。
- 在 EfficientNet-B0 骨干网络下,InstaGraM 达到 mAP 36.7 和 20.3 FPS。
- 距离变换和位置嵌入显著提升图关联质量,在消融实验中优于基于视觉描述符的嵌入。
- 增加 GNN 层数可提升准确性,直到约 7 层达到饱和点(超过 7 层的持续增益很小)。
- 实现端到端的向量化 HD 地图学习,无需繁重的后处理,即可实现实时性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。