QUICK REVIEW

[论文解读] THOMAS: Trajectory Heatmap Output with learned Multi-Agent Sampling

Thomas Gilles, Stefano Sabatini|arXiv (Cornell University)|Oct 13, 2021

Autonomous Vehicle Technology and Safety参考文献 64被引用 59

一句话总结

THOMAS 是一个联合多智能体轨迹预测框架，使用分层热力图解码和一个学习的重组模块来为所有代理产生场景一致的多模态轨迹，在 Interaction Interpret 赛道上实现了最先进的结果。

ABSTRACT

In this paper, we propose THOMAS, a joint multi-agent trajectory prediction framework allowing for an efficient and consistent prediction of multi-agent multi-modal trajectories. We present a unified model architecture for simultaneous agent future heatmap estimation, in which we leverage hierarchical and sparse image generation for fast and memory-efficient inference. We propose a learnable trajectory recombination model that takes as input a set of predicted trajectories for each agent and outputs its consistent reordered recombination. This recombination module is able to realign the initially independent modalities so that they do no collide and are coherent with each other. We report our results on the Interaction multi-agent prediction challenge and rank $1^{st}$ on the online test leaderboard.

研究动机与目标

在多模态设置中预测未来多智能体轨迹，并在代理之间保持一致性。
对过去轨迹和 HD-Map 上下文进行编码，以生成每个代理的未来热力图。
为每个代理生成多个端点并重构完整轨迹。
通过重组采样端点，确保预测无碰撞且与场景保持一致。

提出的方法

对代理历史和基于车道网格的 HD-Map 上下文使用一个共享的图编码器，结合跨注意力和自注意力来生成每个代理的编码。
通过分层网格细化方案解码每个代理的未来概率热力图，该方案从低分辨率网格开始扩展到最终分辨率，选择性地细化高概率区域。
从热力图中使用基于 MissRate 的解码策略为每个代理采样 K 个端点，以覆盖多样的模态。
为每个端点生成完整轨迹，使用以历史和端点为条件的多层感知机（MLP）。
引入一个场景一致性重组模块，通过跨注意力和 Winner-Takes-All 损失学习将代理模态对齐并组合成一致的场景模态。

实验结果

研究问题

RQ1如何在保持多模态的同时，使多智能体轨迹预测在代理之间共同保持一致性？
RQ2分层热力图解码器是否可扩展到大量代理并保持快速推理？
RQ3学习到的重组模块是否能在不牺牲边际准确性的前提下提升场景一致性并减少碰撞？
RQ4与解释性基准上的最先进联合预测方法相比，THOMAS 的表现如何？

主要发现

Method	mADE	mFDE	MR	mFDE	MR	SCR	cMR
ILVM (Casas et al., 2020)	0.30	0.62	10.8	0.84	19.8	5.7	21.3
SceneTransformer (Ngiam et al., 2021)	0.29	0.59	10.5	0.84	15.7	3.4	17.3
THOMAS	0.31	0.60	8.2	0.76	11.8	2.4	12.7

THOMAS 在 Interaction Interpret 赛道上的联合指标相比 ILVM 和 SceneTransformer 达到最先进水平。
联合 SMR 相较基线提升约 25%，SCR 提升约 30%，cSMR 也下降 >25%。
分层热力图解码仅计算网格的一小部分点（例如在 0.5 m 分辨率、范围 192 m 时为 1856 / 147,456），且性能无下降。
重组模块通过重复使用并对齐现有代理模态，降低碰撞率并产生更一致的场景模态。
与 GOHOME 相比，THOMAS 提供更快的推理（32-128 个代理）和改进的联合一致性指标。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。