[论文解读] TIGFlow-GRPO: Trajectory Forecasting via Interaction-Aware Flow Matching and Reward-Driven Optimization
TIGFlow-GRPO 将两阶段基于流的轨迹预测与互动感知上下文(TIG-GAT)以及后训练的 Flow-GRPO 强化学习阶段相结合,使生成的未来轨迹与社会规范和地图约束对齐,提升多模态准确性与可行性。
Human trajectory forecasting is important for intelligent multimedia systems operating in visually complex environments, such as autonomous driving and crowd surveillance. Although Conditional Flow Matching (CFM) has shown strong ability in modeling trajectory distributions from spatio-temporal observations, existing approaches still focus primarily on supervised fitting, which may leave social norms and scene constraints insufficiently reflected in generated trajectories. To address this issue, we propose TIGFlow-GRPO, a two-stage generative framework that aligns flow-based trajectory generation with behavioral rules. In the first stage, we build a CFM-based predictor with a Trajectory-Interaction-Graph (TIG) module to model fine-grained visual-spatial interactions and strengthen context encoding. This stage captures both agent-agent and agent-scene relations more effectively, providing more informative conditional features for subsequent alignment. In the second stage, we perform Flow-GRPO post-training,where deterministic flow rollout is reformulated as stochastic ODE-to-SDE sampling to enable trajectory exploration, and a composite reward combines view-aware social compliance with map-aware physical feasibility. By evaluating trajectories explored through SDE rollout, GRPO progressively steers multimodal predictions toward behaviorally plausible futures. Experiments on the ETH/UCY and SDD datasets show that TIGFlow-GRPO improves forecasting accuracy and long-horizon stability while generating trajectories that are more socially compliant and physically feasible. These results suggest that the proposed framework provides an effective way to connect flow-based trajectory modeling with behavior-aware alignment in dynamic multimedia environments.
研究动机与目标
- 在拥挤场景中改善行人轨迹预测的社会上下文建模。
- 在非可微约束下,将流式轨迹生成与行为导向的对齐 puente 整合。
- 在强制社交与地图可行性的同时 enabling 多模态未来的探索。
- 在保持通过流匹配学习的多模态多样性的同时,促进社会合规预测。
提出的方法
- 使用两阶段框架:带条件流匹配(CFM)的预训练以及基于 TIG-GAT 的上下文编码来预测未来轨迹。
- 引入 TIG-GAT 作为面向目标、对视角敏感的图模块,以细化局部交互和条件化流骨干的上下文Token。
- 后训练采用 Flow-GRPO:将ODE滚动重构为SDE,以实现随机轨迹探索并用复合奖励进行优化。
- 定义一个复合奖励,将面向视角的社交规则与通过符号距离场(SDF)和障碍惩罚实现的地图感知可行性相结合。
- 应用冻结参考策略并采用群体相对策略优化(GRPO),在保持先前多模态多样性的同时使生成轨迹与环境约束对齐。
- 在后训练中引入 ODE 到 SDE 的转变,以实现随机滚动并便于对连续生成进行可 tractable 的 GRPO 更新。
实验结果
研究问题
- RQ1在复杂场景中,如何将基于流的轨迹预测与社会规范和环境约束对齐?
- RQ2感知感知的互动模块与以奖励驱动的后训练阶段,是否能在不牺牲多模态多样性的前提下提升社会合规性和物理可行性?
- RQ3将非微分约束(社会与地图)注入基于流的轨迹生成的有效机制是什么?
- RQ4通过ODE到SDE的随机滚动是否能在探索性与对齐方面优于确定性流滚动?
主要发现
- 在 ETH/UCY 数据集上,TIGFlow-GRPO 在列出的基线中实现了最佳的整体平均 ADE 和 FDE(0.20, 0.31)。
- 在 SDD 数据集上,TIGFlow-GRPO 的 ADE 为 7.37,FDE 为 11.67(像素空间)。
- TIG-GAT 与 Flow-GRPO 共同提升了在社交密集场景和地图约束环境中的预测效果。
- 与 MoFlow 相比,TIGFlow-GRPO 在 ETH/UCY 的子集上表现出持续的改进,尤其在交互密集场景(ZARA1, UNIV)。
- 该方法整合了面向视角的社交奖励与面向地图的语义奖励,以引导行为对齐的轨迹生成。
- 实验设置使用前 8 帧观测来预测后 12 帧,并用 ADE/FDE 与碰撞率(Col)进行评估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。