[论文解读] Real-Time Motion Prediction via Heterogeneous Polyline Transformer with Relative Pose Encoding
HPTR 引入 Knarpe 注意力和异质多线表示,以实现具有共享/静态上下文的实时、可扩展运动预测,保持竞争力的准确性,同时大幅降低延迟与内存消耗。
The real-world deployment of an autonomous driving system requires its components to run on-board and in real-time, including the motion prediction module that predicts the future trajectories of surrounding traffic participants. Existing agent-centric methods have demonstrated outstanding performance on public benchmarks. However, they suffer from high computational overhead and poor scalability as the number of agents to be predicted increases. To address this problem, we introduce the K-nearest neighbor attention with relative pose encoding (KNARPE), a novel attention mechanism allowing the pairwise-relative representation to be used by Transformers. Then, based on KNARPE we present the Heterogeneous Polyline Transformer with Relative pose encoding (HPTR), a hierarchical framework enabling asynchronous token update during the online inference. By sharing contexts among agents and reusing the unchanged contexts, our approach is as efficient as scene-centric methods, while performing on par with state-of-the-art agent-centric methods. Experiments on Waymo and Argoverse-2 datasets show that HPTR achieves superior performance among end-to-end methods that do not apply expensive post-processing or model ensembling. The code is available at https://github.com/zhejz/HPTR.
研究动机与目标
- 为车载自动驾驶系统的实时运动预测提供动力。
- 提出一种可扩展的、与智能体无关的表示,在智能体之间共享上下文。
- 开发基于 Transformer 的架构(HPTR),采用异步、分层更新以最小化在线计算。
提出的方法
- 将所有输入表示为具有全局姿态和本地属性的异质多线。
- 引入 Knarpe:带相对姿态编码的最近邻注意力,以在 Transformers 中实现成对的相对表示。
- 构建 HPTR:一个分层 Transformer 框架,具备类内和类间注意力以及异步令牌更新以复用静态上下文。
- 将输出解码为高斯混合物的多模态轨迹,并通过一组损失项(置信度、位置、航向角、速度)进行训练。
- 将地图、交通信号灯和智能体表示为多线,并在在线推理阶段复用静态地图特征以提升效率。
实验结果
研究问题
- RQ1 Knarpe 能否实现对成对相对多线的有效 Transformer 处理以进行运动预测?
- RQ2HPTR 是否在端到端达到与场景中心化方法相媲美的准确性,同时达到或超越其效率?
- RQ3在线推理中通过上下文共享与异步令牌更新可以获得哪些内存与延迟的提升?
- RQ4在 Waymo Open Motion、Argoverse-2 等大规模数据集上,与最先进方法在无后处理或模型集成的情况下,HPTR 的表现如何?
主要发现
- 与最先进的以智能体为中心的方法相比,HPTR 在维持竞争力的同时显著降低内存和延迟(相对于基线降低约 80% 左右)。
- 在线推理期间缓存静态地图特征,使在单 GPU 上实现 40 帧/秒的64个智能体的实时预测成为可能。
- HPTR 在使用左下三角注意力排列时,超越场景中心化基线并且紧贴智能体中心化方法的表现。
- 在 Waymo 和 Argoverse-2 基准测试中,HPTR 位列端到端方法的前列,且不需要昂贵的后处理或模型集成。
- 所提出的 Knarpe 注意力实现了高效的上下文在异质多线之间的共享,提升了在密集交通场景中的可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。