Skip to main content
QUICK REVIEW

[論文レビュー] TIGFlow-GRPO: Trajectory Forecasting via Interaction-Aware Flow Matching and Reward-Driven Optimization

Xuepeng Jing, Wenhuan Lu|arXiv (Cornell University)|Mar 26, 2026
Anomaly Detection Techniques and Applications被引用数 0
ひとこと要約

TIGFlow-GRPOは、相互作用認識フローメッチングと報酬主導の最適化を統合し、群衆と地図における社会的適合性と物理的実現性を備えた軌跡予測を実現。

ABSTRACT

Human trajectory forecasting is important for intelligent multimedia systems operating in visually complex environments, such as autonomous driving and crowd surveillance. Although Conditional Flow Matching (CFM) has shown strong ability in modeling trajectory distributions from spatio-temporal observations, existing approaches still focus primarily on supervised fitting, which may leave social norms and scene constraints insufficiently reflected in generated trajectories. To address this issue, we propose TIGFlow-GRPO, a two-stage generative framework that aligns flow-based trajectory generation with behavioral rules. In the first stage, we build a CFM-based predictor with a Trajectory-Interaction-Graph (TIG) module to model fine-grained visual-spatial interactions and strengthen context encoding. This stage captures both agent-agent and agent-scene relations more effectively, providing more informative conditional features for subsequent alignment. In the second stage, we perform Flow-GRPO post-training,where deterministic flow rollout is reformulated as stochastic ODE-to-SDE sampling to enable trajectory exploration, and a composite reward combines view-aware social compliance with map-aware physical feasibility. By evaluating trajectories explored through SDE rollout, GRPO progressively steers multimodal predictions toward behaviorally plausible futures. Experiments on the ETH/UCY and SDD datasets show that TIGFlow-GRPO improves forecasting accuracy and long-horizon stability while generating trajectories that are more socially compliant and physically feasible. These results suggest that the proposed framework provides an effective way to connect flow-based trajectory modeling with behavior-aware alignment in dynamic multimedia environments.

研究の動機と目的

  • 混雑場面における歩行者軌跡予測の社会的文脈モデリングを改善する。
  • 非微分可能な制約の下で、フロー基盤の軌跡生成と行動指向の整合性を橋渡しする。
  • 社会的および地図ベースの実現可能性を強制しつつ、多模態未来の探索を可能にする。
  • フロー適合で学習した多模態の多様性を保持しつつ、社会的適合性の高い予測を促進する。

提案手法

  • 条件付きフロー適合(CFM)とTIG-GATベースの文脈エンコーディングによる事前学習で未来軌跡を予測する、2段階フレームワークを使用。
  • ターゲット中心で視点認識を備えたグラフモジュールとしてTIG-GATを導入し、局所相互作用と条件付け用の文脈トークンを精錬してフローベース backboneを強化する。
  • Flow-GRPOによるポストトレーニング:ODEロールアウトをSDEに再定式化して確率的軌跡探索を可能にし、複合報酬で最適化する。
  • ビュー認識型社会ルールとサインド距離場(SDF)と障害物ペナルティを用いたマップ認識型実現可能性を組み合わせた複合報酬を定義する。
  • 環境制約に合わせて生成軌跡を整列させつつ、以前の多模態多様性を維持するためにグループ相対ポリシー最適化(GRPO)を適用する、凍結参照ポリシーを用いる。
  • ポストトレーニングにODE→SDE転換を組み込み、確率的ロールアウトと連続生成のGRPO更新を実現する。

実験結果

リサーチクエスチョン

  • RQ1複雑な場面でフロー基盤の軌跡予測を社会規範と環境制約にどのように整合させられるか。
  • RQ2知覚認識型相互作用モジュールと報酬主導のポストトレーニング段階は、多模態の多様性を損なうことなく社会的適合性と物理的実現性を向上させられるか。
  • RQ3非微分可能な制約(社会的・地図ベース)をフロー基盤の軌跡生成に注入する効果的な機構は何か。
  • RQ4ODE→SDEによる確率的ロールアウトは、決定論的なフロー ロールアウトと比較して探索と整合性を改善するか。

主な発見

  • ETH/UCYで、TIGFlow-GRPOはリストされたベースラインの中で最も良い総合平均ADEとFDEを達成(0.20, 0.31)。
  • SDDで、TIGFlow-GRPOはADE 7.37およびFDE 11.67(ピクセル空間)を達成。
  • TIG-GATとFlow-GRPOを組み合わせることで、社会的に密集した場面と地図制約のある環境で予測性能が向上。
  • MoFlowと比較して、TIGFlow-GRPOはETH/UCYのサブセット全体で一貫した改善を示し、特に相互作用が高い場面(ZARA1、UNIV)で顕著。
  • 本手法はビュー認識型社会報酬と地図認識型意味報酬を統合して、行動整合性のある軌跡生成を誘導。
  • 実験設定では、観測8フレームから未来12フレームを予測し、ADE/FDEと衝突率(Col)で評価。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。