[论文解读] VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized Representation
VectorNet 使用分层图神经网络对矢量化的高精地图(HD maps)和代理轨迹进行编码以进行行为预测,在参数量和 FLOPs 远少于光栅化卷积神经网络基线的情况下实现具有竞争力甚至更优的结果,并在 Argoverse 上达到最先进的性能。
Behavior prediction in dynamic, multi-agent systems is an important problem in the context of self-driving cars, due to the complex representations and interactions of road components, including moving agents (e.g. pedestrians and vehicles) and road context information (e.g. lanes, traffic lights). This paper introduces VectorNet, a hierarchical graph neural network that first exploits the spatial locality of individual road components represented by vectors and then models the high-order interactions among all components. In contrast to most recent approaches, which render trajectories of moving agents and road context information as bird-eye images and encode them with convolutional neural networks (ConvNets), our approach operates on a vector representation. By operating on the vectorized high definition (HD) maps and agent trajectories, we avoid lossy rendering and computationally intensive ConvNet encoding steps. To further boost VectorNet's capability in learning context features, we propose a novel auxiliary task to recover the randomly masked out map entities and agent trajectories based on their context. We evaluate VectorNet on our in-house behavior prediction benchmark and the recently released Argoverse forecasting dataset. Our method achieves on par or better performance than the competitive rendering approach on both benchmarks while saving over 70% of the model parameters with an order of magnitude reduction in FLOPs. It also outperforms the state of the art on the Argoverse dataset.
研究动机与目标
- 通过向量化表示整合代理动态与结构化的高精地图上下文。
- 开发分层图结构以捕捉局部多线段交互与全局多线段-节点关系。
- 引入自监督的图完成目标以提升上下文学习能力。
- 在内部数据集和 Argoverse 上评估,以与光栅化渲染基线和最先进方法进行对比。
提出的方法
- 将地图和代理轨迹表示为向量序列(多段线),并将每个向量视为图节点,其特征包括起始/结束坐标及属性。
- 通过在同一多线段内连接向量并通过局部 GNN(基于 MLP 的)和最大池化聚合,构建多线段子图并得到多线段特征。
- 使用基于自注意力的 GNN 在多线段特征上建模高阶交互,利用相应多线段节点特征解码目标代理的未来轨迹。
- 通过掩蔽节点特征并训练网络重建它们来引入图完成的辅助任务,促进上下文感知的表示学习。
- 优化多任务损失:L = L_traj(未来轨迹的负高斯对数似然) + α L_node(被掩蔽的节点特征重构的Huber损失)。
- 将多线段节点特征规范化为单位尺度,并将坐标旋转以与目标车辆的朝向对齐,以实现稳定预测。
实验结果
研究问题
- RQ1是否可以通过分层图学习对高精地图的向量化表示和代理轨迹来有效预测未来行为?
- RQ2局部连接的多线段子图加全局注意力图是否相较于光栅化ConvNet基线提升轨迹预测?
- RQ3图完成辅助任务是否改善代理与地图上下文之间的交互建模?
主要发现
- VectorNet 在参数量显著更少(约72K对比约246K)且 FLOPs 量级也低得多的情况下,表现与光栅化 ConvNet 基线相当或更佳。
- VectorNet 在 Argoverse 测试集上实现了 DE@3s 的最先进水平,并且在 Argoverse 上优于最佳ConvNet基线,增益显著。
- 在内部数据集上,VectorNet 采用向量化输入的表现与光栅化基线相当或优于,同时计算量(FLOPs)与参数显著减少。
- 消融研究表明同时整合地图多线段和其他代理轨迹可提升精度,且图完成的辅助任务在长期预测中特别有帮助。
- 多线段子图深度(三层)与全局单层图在精度与效率之间提供最佳折中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。