QUICK REVIEW

[论文解读] Trajformer: Trajectory Prediction with Local Self-Attentive Contexts for Autonomous Driving

Manoj Bhat, Jonathan Francis|arXiv (Cornell University)|Nov 30, 2020

Autonomous Vehicle Technology and Safety参考文献 16被引用 18

一句话总结

Trajformer 提出了一种基于自注意力机制的端到端多模态轨迹预测模型，通过局部化、以智能体为中心的上下文编码，提升了预测的准确性和多样性。该模型在 Argoverse 数据集上实现了最先进性能，minADE、minFDE、DAO 和 DAC 指标均有显著提升，同时相比先前方法将模型大小减少了 60%以上。

ABSTRACT

Effective feature-extraction is critical to models' contextual understanding, particularly for applications to robotics and autonomous driving, such as multimodal trajectory prediction. However, state-of-the-art generative methods face limitations in representing the scene context, leading to predictions of inadmissible futures. We alleviate these limitations through the use of self-attention, which enables better control over representing the agent's social context; we propose a local feature-extraction pipeline that produces more salient information downstream, with improved parameter efficiency. We show improvements on standard metrics (minADE, minFDE, DAO, DAC) over various baselines on the Argoverse dataset. We release our code at: https://github.com/Manojbhat09/Trajformer

研究动机与目标

为解决在自动驾驶多模态轨迹预测中建模智能体间社会交互关系的局限性。
通过局部自注意力机制增强动态场景交互的特征表示，以提升预测质量。
与最先进模型相比，在减少模型规模的同时实现更优性能与更高的参数效率。
通过捕捉局部智能体行为与交通礼仪，生成更多样化、合理且符合社会规范的未来轨迹。
在 Argoverse 基准上通过全面的定量与定性评估验证模型性能。

提出的方法

模型采用基于 Transformer 的编码器，结合局部自注意力机制，从邻近智能体中提取显著特征，聚焦于即时社会上下文。
通过投影的地图裁剪（受视觉 Transformer 启发）引入空间先验，增强场景级感知能力。
通过统一的自注意力主干网络整合场景到智能体与智能体到智能体的上下文，避免使用独立的编码器。
利用固定大小的空间窗口（16×16 像素）围绕每个智能体提取局部邻域特征，实现高效且聚焦的注意力计算。
采用单阶段端到端训练流程，使用 Adam 优化器，学习率预热与衰减策略，应用于 Argoverse Tracking 数据划分。
使用 1024 维潜在码与单层投影头，将特征映射为未来轨迹预测。

实验结果

研究问题

RQ1局部自注意力能否提升自动驾驶轨迹预测中动态社会交互的建模能力？
RQ2统一自注意力主干与分别编码场景与社会上下文的架构相比，在轨迹预测中表现如何？
RQ3与最先进模型相比，Trajformer 在预测多样性与可行性方面提升程度如何？
RQ4轻量级 Transformer 模型能否在显著减少参数量的前提下实现更优性能？
RQ5当存在高速度智能体时，会出现哪些失败模式？上下文窗口大小如何影响这些模式？

主要发现

Trajformer 在 Argoverse 数据集上达到新的最先进性能，最佳变体（Trajformer-24）的 minADE 为 0.621，minFDE 为 0.719。
模型在 DAO（28.21）与 DAC（0.973）上显著优于先前方法，表明预测轨迹的多样性和可行性更高。
Trajformer-24 将模型大小缩减至 2.9 MB 和 192K 参数，相比 DATF（4.7 MB，462K 参数）减少 58%。
定性结果表明，模型成功学习并遵守了交叉路口的优先通行规则，智能体能正确让行。
主要失败模式出现在高速度智能体上，预测轨迹点均匀分布，间距为正常距离的两倍，可能由于局部上下文窗口尺寸有限所致。
Trajformer-12 与 Trajformer-24 之间的性能差距极小，表明 12 层已足够实现强性能，且复杂度更低。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。