[论文解读] What-If Motion Prediction for Autonomous Driving
本文提出WIMP(What-If Motion Prediction),一种基于循环图注意力机制的模型,通过整合几何(车道级)与社交(参与者-参与者)关系,实现在自动驾驶中的反事实运动预测。通过将预测条件设定于假设的车道多段线或改变的社交情境,WIMP支持实时规划器交互,提升因果推理能力,并在Argoverse数据集上实现最先进性能,同时实现可解释性高、多样化的轨迹预测,超越标准基准。
Forecasting the long-term future motion of road actors is a core challenge to the deployment of safe autonomous vehicles (AVs). Viable solutions must account for both the static geometric context, such as road lanes, and dynamic social interactions arising from multiple actors. While recent deep architectures have achieved state-of-the-art performance on distance-based forecasting metrics, these approaches produce forecasts that are predicted without regard to the AV's intended motion plan. In contrast, we propose a recurrent graph-based attentional approach with interpretable geometric (actor-lane) and social (actor-actor) relationships that supports the injection of counterfactual geometric goals and social contexts. Our model can produce diverse predictions conditioned on hypothetical or "what-if" road lanes and multi-actor interactions. We show that such an approach could be used in the planning loop to reason about unobserved causes or unlikely futures that are directly relevant to the AV's intended route.
研究动机与目标
- 解决现有自动驾驶运动预测模型中缺乏反事实推理的问题。
- 通过注入假设的几何与社交情境,实现实时、规划器在回路中的预测。
- 通过车道与参与者交互的结构化、拓扑建模,提升对自动驾驶行为的可解释性与因果理解。
- 支持基于未观测或低概率情景的多样化、多模态轨迹预测。
- 证明模型能够泛化至极端或不一致的上下文输入,表明其具备稳健的因果学习能力。
提出的方法
- WIMP采用具有独立注意力模块的循环图神经网络,分别处理几何(车道-车道)与社交(参与者-参与者)关系。
- 将道路网络表示为车道线段的有向图,从底层车道拓扑结构生成拓扑目标多段线。
- 模型将预测条件设定于用户定义或假设的多段线,支持无需重新处理场景的“如果……会怎样”查询。
- 通过动态交互图建模社交情境,支持对参与者的消融或注入,以模拟反事实场景。
- 该架构避免了栅格化处理,直接处理原始坐标与拓扑结构,以提升几何保真度。
- 通过同时关注历史运动与条件输入(包括不兼容或语义异常的多段线),支持多样化预测。
实验结果
研究问题
- RQ1运动预测模型能否为自动驾驶规划提供高效、交互式的反事实推理?
- RQ2将预测条件设定于假设的车道多段线或改变的社交情境,如何影响预测的多样性与真实性?
- RQ3模型能否通过对外部极端或不兼容上下文输入的合理响应,学习到驾驶行为的因果表征?
- RQ4基于图、非栅格化的架构在长期运动预测基准上,能在多大程度上超越最先进方法?
- RQ5当模型被设定于冲突或不可能的几何目标时,其行为如何变化?
主要发现
- WIMP在Argoverse运动预测基准上达到最先进性能,在标准距离度量指标上优于先前方法。
- 当条件设定于语义不兼容的多段线(如与其他参与者相交)时,模型学会忽略地图输入,转而依赖社交与历史上下文,表现出强鲁棒性。
- 在反事实场景中(如在路口注入一辆静止车辆),模型正确预测出激进减速,最终速度从10.3 m/s降至3.3 m/s。
- 即使仅以单一多段线为条件,模型仍能生成多样化预测,包括忽略输入的轨迹,表明其具备多模态推理能力。
- 模型对外部极端或不可能输入的审慎响应,表明其学习到了因果而非相关性的驾驶行为表征。
- 该框架通过支持对相关未来场景的针对性查询,而无需重新处理完整场景上下文,实现了高效的规划器交互。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。