QUICK REVIEW

[论文解读] Multiple Futures Prediction

Yichuan Tang, Ruslan Salakhutdinov|arXiv (Cornell University)|Nov 4, 2019

Autonomous Vehicle Technology and Safety被引用 119

一句话总结

MFP 是一个带离散潜变量的概率端到端框架，能联合预测任意数量代理的多模态、交互式未来轨迹，具有闭式概率和在驾驶数据集上的假设回放演示。

ABSTRACT

Temporal prediction is critical for making intelligent and robust decisions in complex dynamic environments. Motion prediction needs to model the inherently uncertain future which often contains multiple potential outcomes, due to multi-agent interactions and the latent goals of others. Towards these goals, we introduce a probabilistic framework that efficiently learns latent variables to jointly model the multi-step future motions of agents in a scene. Our framework is data-driven and learns semantically meaningful latent variables to represent the multimodal future, without requiring explicit labels. Using a dynamic attention-based state encoder, we learn to encode the past as well as the future interactions among agents, efficiently scaling to any number of agents. Finally, our model can be used for planning via computing a conditional probability density over the trajectories of other agents given a hypothetical rollout of the 'self' agent. We demonstrate our algorithms by predicting vehicle trajectories of both simulated and real data, demonstrating the state-of-the-art results on several vehicle trajectory datasets.

研究动机与目标

通过预测多种可能的未来，以推动在动态、多智能体环境中的稳健且安全的决策。
开发一个可扩展的模型，在没有固定代理数量或显式模式标签的情况下，捕捉代理间的交互和上下文。
直接从数据中学习具有语义意义的潜在模式，以表示多样化的未来行为。
通过设想的代理回放来评估给定的条件轨迹分布，从而实现基于假设推理的规划。

提出的方法

提出一个序列化的概率潜变量模型（MFP），将联合未来在时间和代理之间分解，以实现对任意 N 的可扩展性。
使用来自 Multinoulli(K) 的离散潜变量 z^n（每个代理一个）来捕捉多模态的未来模式，而无需标注的意图。
实现每个代理的 PoV 编码器、基于动态注意力的状态编码，以及共享权重的每代理解码 RNN，以预测未来轨迹。
通过类似 EM 的优化，利用 ELBO 提供一个可处理的学习目标，由于 K 小而对离散 Z 的后验计算是精确的。
通过将每个代理的未来条件化为其他代理的预测未来，实现联合、交互式的滚动仿真，从而实现假设推理（基于自我轨迹的条件）。
将每个代理的未来输出为一个五维高斯分布（mu_x, mu_y, sigma_x, sigma_y, rho），以实现可处理的似然和规划。

实验结果

研究问题

RQ1在没有标注模式的情况下，统一的潜变量框架是否能捕捉到可变数量代理的多模态、交互式未来？
RQ2如何利用离散潜变量学习在若干时间步内持续存在的有意义的未来模式？
RQ3是否可以高效、闭式地评估用于规划的条件轨迹概率和假设回放？
RQ4动态注意力编码是否能改善多智能体预测中的交互和场景上下文的状态表示？

主要发现

MFP 在无监督的情况下学习到具有语义意义的潜在模式，表示跨代理的不同行为（例如直行、停止、右转）。
模型通过共享参数的每代理 RNNs 和对时间与代理的因式分解似然，扩展到任意数量的代理。
MFP 在 CARLA、NGSIM 和 Argoverse 数据集上在多项指标上达到最先进或具竞争力的结果。
假设性回滚允许对一个或多个代理的轨迹进行条件化，从而获得用于规划任务的条件预测。
动态注意力编码通过有效编码代理间关系和场景上下文来提高预测质量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。