[论文解读] Geometry-Aware Rotary Position Embedding for Consistent Video World Model
本文提出 ViewRope,一种几何感知的旋转位置编码,将相机射线方向注入视频变换器注意力以实现长期几何一致性,并结合用于高效检索相关历史的几何感知帧稀疏注意力。
Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, current systems lack spatial persistence: they fail to maintain stable scene structures over long trajectories, frequently hallucinating details when cameras revisit previously observed locations. We identify that this geometric drift stems from reliance on screen-space positional embeddings, which conflict with the projective geometry required for 3D consistency. We introduce extbf{ViewRope}, a geometry-aware encoding that injects camera-ray directions directly into video transformer self-attention layers. By parameterizing attention with relative ray geometry rather than pixel locality, ViewRope provides a model-native inductive bias for retrieving 3D-consistent content across temporal gaps. We further propose extbf{Geometry-Aware Frame-Sparse Attention}, which exploits these geometric cues to selectively attend to relevant historical frames, improving efficiency without sacrificing memory consistency. We also present extbf{ViewBench}, a diagnostic suite measuring loop-closure fidelity and geometric drift. Our results demonstrate that ViewRope substantially improves long-term consistency while reducing computational costs.
研究动机与目标
- 驱动并解决在相机运动下基于姿态条件的视频生成中的几何漂移问题。
- 开发一种几何感知的位置编码,使其与三维投影几何一致,而非屏幕坐标。
- 引入帧稀疏注意力机制,对几何上可线性可见的历史帧进行关注。
- 提出 ViewBench,用于诊断循环闭合保真度和相机条件视频模型中的几何漂移。
提出的方法
- ViewRope 通过对每个补丁的观看射线方向进行局部旋转,将查询/键子向量进行旋转,从而将其注入自注意力。
- 注意力分数成为相对射线几何关系的函数,而非像素局部性,编码观看射线之间的角度关系。
- 几何感知帧稀疏注意力从几何相关的历史帧中选择少量集合以替代密集注意力,从而在降低计算成本的同时实现长期生成。
- 训练采用渐进式调度:从带教师强制的短片段到具有帧稀疏注意力的长上下文流式生成。
- 评估依托 ViewBench——一个用于循环闭合保真度和几何漂移诊断的套件,并与 3D RoPE 和 GTA 基线进行比较。
实验结果
研究问题
- RQ1我们如何将相机几何直接编码到变换器注意力中,以提升视频生成的长期三维一致性?
- RQ2补丁级基于射线的注意力在循环闭合情形下是否优于屏幕空间位置偏置?
- RQ3几何条件的稀疏注意力是否能够在不牺牲内存持久性的前提下高效检索几何相关的历史?
- RQ4在长期生成中,ViewRope 和帧稀疏注意力对视觉质量与几何保真度的影响如何?
主要发现
| 方法 | 30 deg PSNR | 30 deg SSIM | 30 deg LPIPS | 30 deg LCE | 75 deg PSNR | 75 deg SSIM | 75 deg LPIPS | 75 deg LCE |
|---|---|---|---|---|---|---|---|---|
| 3D RoPE | 17.09 | 0.4133 | 0.4219 | 0.4929 | 14.78 | 0.3634 | 0.5501 | 0.4831 |
| GTA | 17.33 | 0.4325 | 0.4165 | 0.4707 | 15.12 | 0.3784 | 0.5403 | 0.4723 |
| ViewRope (Ours) | 17.53 | 0.4378 | 0.4080 | 0.4497 | 15.27 | 0.3916 | 0.5398 | 0.4562 |
- ViewRope 在循环闭合性能上表现最佳,相较 GTA 基线将 LCE 降低 4%。
- 几何感知编码在 LCE 与相关指标上持续优于绝对编码(GTA 与 ViewRope 在三维 RoPE 的表现之上)。
- ViewRope 在保持竞争力的视觉质量(PSNR/SSIM)的同时提升几何保真度。
- 使用稀疏(几何感知稀疏注意力)的 ViewRope 相较滑动窗口方法在减少 LCE 方面更具优势,并使训练更加稳定。
- 在稀疏实验中,训练时间降低约 25%(在 201 帧序列上从 27.66 s/iter 降至 22.01 s/iter),并提升长期一致性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。