Skip to main content
QUICK REVIEW

[論文レビュー] TrajLoom: Dense Future Trajectory Generation from Video

Zewei Zhang, Jia Jun Cheng Xian|arXiv (Cornell University)|Mar 23, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

TrajLoomは、Grid-Anchor Offset Encoding、TrajLoom-VAE潜在空間、Boundary cuesとon-policy微調整を備えたTrajLoom-Flowを用いて、観測履歴から密な将来点軌道を予測する。長期安定な運動を実現し、TrajLoomBenchで最先端を更新。

ABSTRACT

Predicting future motion is crucial in video understanding and controllable video generation. Dense point trajectories are a compact, expressive motion representation, but modeling their future evolution from observed video remains challenging. We propose a framework that predicts future trajectories and visibility from past trajectories and video context. Our method has three components: (1) Grid-Anchor Offset Encoding, which reduces location-dependent bias by representing each point as an offset from its pixel-center anchor; (2) TrajLoom-VAE, which learns a compact spatiotemporal latent space for dense trajectories with masked reconstruction and a spatiotemporal consistency regularizer; and (3) TrajLoom-Flow, which generates future trajectories in latent space via flow matching, with boundary cues and on-policy K-step fine-tuning for stable sampling. We also introduce TrajLoomBench, a unified benchmark spanning real and synthetic videos with a standardized setup aligned with video-generation benchmarks. Compared with state-of-the-art methods, our approach extends the prediction horizon from 24 to 81 frames while improving motion realism and stability across datasets. The predicted trajectories directly support downstream video generation and editing. Code, model checkpoints, and datasets are available at https://trajloom.github.io/.

研究の動機と目的

  • 動画内の将来予測のための密な軌道をコンパクトな運動表現として動機づける。
  • 位置バイアスを減らすためのオフセットベースの軌道エンコーディングを開発する。
  • 軌道のコンパクトな潜在空間と長期予測の安定したflowベース生成器を学習する。
  • 現実と合成動画をまたぐ統一ベンチマーク(TrajLoomBench)を導入し、公平な評価を行う。
  • モーション制御された動画生成・編集への現実性・安定性・下流適用性の向上を実証する。

提案手法

  • 絶対座標をピクセル中心アンカーからのオフセットへ変換するGrid-Anchor Offset Encodingにより位置バイアスを低減する。
  • TrajLoom-VAE: マスク付き再構成と時空的一貫性正則化子を用いて、密な軌道場のコンパクトな潜在表現を学習するVAE。
  • TrajLoom-Flow: 観測履歴と動画文脈に条件付けられた将来潜在軌道を予測する rectified-flow ジェネレータ。境界ヒントとオンポリシーKステップ微調整で長期サンプリングを安定化。
  • 境界ヒントとトークン整列融合により履歴の潜在表現をフローへ統合し、運動の一貫した継続を可能にする。
  • オンポリシーKステップ展開は訓練と推論パスを整合させ、ODEベースのサンプリングにおけるドリフトを緩和する。
  • TrajLoomBenchで実世界データと合成データを比較する評価(WHN)を含む。

実験結果

リサーチクエスチョン

  • RQ1観測された運動履歴と動画文脈から、密な将来軌道をどのように表現・予測するか?
  • RQ2グリッドアンカーオフセットエンコーディングは長期での位置不変性と予測安定性を向上させるか?
  • RQ3Rectified-flowジェネレータを備えたVAEベースの潜在軌道空間は、外観条件付基準より現実的で一貫した長期未来を生み出すか?
  • RQ4境界ヒントとオンポリシー微調整は長期軌道生成にどのような影響を与えるか?
  • RQ5Real+Synthetic統一ベンチマークでの密な軌道予測性能はどうか?

主な発見

  • TrajLoomは最先端の運動現実性と安定性を達成し、予測ホライズンを24フレームから81フレームへ拡張した。
  • Grid-Anchor Offset Encodingは位置依存の分散を大幅に低減し、長期性能を改善した。
  • TrajLoom-VAEはデータセット横断で軌道再構成精度(VEPE)を向上させ、24〜81フレーム間で安定した性能を示した。
  • 境界ヒントとオンポリシー微調整を用いるTrajLoom-FlowはFlowTVとDivCurlEを低く抑え、より滑らかで一貫した運動を実現した。
  • 実世界および合成ベンチマークで、TrajLoomは定量指標(FVMD, FlowTV, DivCurlE)と定性的な運動一貫性の両方でWHNを上回る。
  • 予測軌道は運動制御付き動画生成・編集(Wan-Move統合)を効果的にガイドする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。