[论文解读] TrajLoom: Dense Future Trajectory Generation from Video
TrajLoom 通过观测历史使用 Grid-Anchor Offset Encoding、TrajLoom-VAE 潜在空间和 TrajLoom-Flow(带边界线索与 on-policy 微调)来预测密集的未来点轨迹,具备长时 horizon、稳定运动,并在 TrajLoomBench 上达到最新进展。
Predicting future motion is crucial in video understanding and controllable video generation. Dense point trajectories are a compact, expressive motion representation, but modeling their future evolution from observed video remains challenging. We propose a framework that predicts future trajectories and visibility from past trajectories and video context. Our method has three components: (1) Grid-Anchor Offset Encoding, which reduces location-dependent bias by representing each point as an offset from its pixel-center anchor; (2) TrajLoom-VAE, which learns a compact spatiotemporal latent space for dense trajectories with masked reconstruction and a spatiotemporal consistency regularizer; and (3) TrajLoom-Flow, which generates future trajectories in latent space via flow matching, with boundary cues and on-policy K-step fine-tuning for stable sampling. We also introduce TrajLoomBench, a unified benchmark spanning real and synthetic videos with a standardized setup aligned with video-generation benchmarks. Compared with state-of-the-art methods, our approach extends the prediction horizon from 24 to 81 frames while improving motion realism and stability across datasets. The predicted trajectories directly support downstream video generation and editing. Code, model checkpoints, and datasets are available at https://trajloom.github.io/.
研究动机与目标
- 将密集轨迹作为未来视频预测的紧凑运动表征以实现高效预测。
- 开发基于偏移的轨迹编码以降低位置信偏置。
- 学习紧凑的轨迹潜在空间及一个稳定的基于流的生成器以实现扩展视界的预测。
- 提出一个统一基准(TrajLoomBench),覆盖真实与合成视频以实现公平评估。
- 展示在真实感、稳定性和下游应用(运动控制视频生成与编辑)方面的改进。
提出的方法
- Grid-Anchor Offset Encoding:将绝对坐标转换为相对于像素中心锚点的偏移,降低位置偏置。
- TrajLoom-VAE:带掩码重构和时空一致性正则化器的变分自编码器,用于学习密集轨迹场的紧凑潜在表征。
- TrajLoom-Flow:一个经过整流的流生成器,在观测历史和视频上下文条件下预测未来潜在轨迹,结合边界线索与 on-policy 的 K-step 微调以稳定长时采样。
- 边界提示与与标记对齐的融合将历史潜在向量整合进流中,从而实现运动的连贯延续。
- on-policy 的 K-step 展开有助于对齐训练与推理路径,缓解基于微分方程采样的漂移。
- 在 TrajLoomBench 上与图像条件基线(WHN)在真实与合成数据集上的对比评估。
实验结果
研究问题
- RQ1如何从观测的运动历史和视频上下文中表示并预测密集的未来轨迹?
- RQ2网格锚点偏移编码是否能提升定位不变性与长时预测的稳定性?
- RQ3基于 VAE 的潜在轨迹空间结合整流流生成是否比基于外观的基线在长时未来上更现实、连贯?
- RQ4边界线索和 on-policy 微调对长时轨迹生成有何影响?
- RQ5TrajLoom 在统一的 Real+Synthetic 基准上对密集轨迹预测的表现如何?
主要发现
- TrajLoom 达到先验最先进的运动真实感与稳定性,将预测时域从 24 帧扩展至 81 帧。
- Grid-Anchor Offset Encoding 显著降低位置相关的方差并提升长时性能。
- TrajLoom-VAE 在不同数据集上提供更好的轨迹重建(VEPE),从 24 到 81 帧的性能稳定。
- TrajLoom-Flow 结合边界线索与 on-policy 微调,获得更低的 FlowTV 与 DivCurlE,表明运动更平滑、连贯。
- 在真实与合成基准上,TrajLoom 在定量指标(FVMD、FlowTV、DivCurlE)与定性运动连贯性方面均超越 WHN。
- 预测轨迹能有效引导运动控制的在线视频生成与编辑(Wan-Move 集成)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。