[論文レビュー] Geometry-Aware Rotary Position Embedding for Consistent Video World Model
本論文は ViewRope を提案する。カメラ光線方向をビデオトランスフォーマーのアテンションに注入する幾何学認識の回転位置エンコーディングにより長期的な幾何学的一貫性を達成し、関連履歴を効率的に取得するための幾何学認識フレームスパースアテンションを導入する。
Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, current systems lack spatial persistence: they fail to maintain stable scene structures over long trajectories, frequently hallucinating details when cameras revisit previously observed locations. We identify that this geometric drift stems from reliance on screen-space positional embeddings, which conflict with the projective geometry required for 3D consistency. We introduce \textbf{ViewRope}, a geometry-aware encoding that injects camera-ray directions directly into video transformer self-attention layers. By parameterizing attention with relative ray geometry rather than pixel locality, ViewRope provides a model-native inductive bias for retrieving 3D-consistent content across temporal gaps. We further propose \textbf{Geometry-Aware Frame-Sparse Attention}, which exploits these geometric cues to selectively attend to relevant historical frames, improving efficiency without sacrificing memory consistency. We also present \textbf{ViewBench}, a diagnostic suite measuring loop-closure fidelity and geometric drift. Our results demonstrate that ViewRope substantially improves long-term consistency while reducing computational costs.
研究の動機と目的
- カメラ運動下でポーズ条件付きビデオ生成における幾何学的ドリフトを動機づけて対処する。
- 3D射影幾何学と整合するジオメトリ認識型位置エンコーディングを開発する。
- 幾何学的に共可視な履歴フレームを参照するフレームスパースアテンション機構を導入する。
- ViewBench を提案し、カメラ条件付きビデオモデルにおけるループ閉じ Fidelity と幾何学的ドリフトを診断する。
提案手法
- ViewRope は各パッチの視線方向を自己アテンションへ導入する際、各パッチの視線に合わせて局所回転を適用してクエリ/キーのサブベクトルを回転させる。
- アテンションスコアはピクセルの局所性ではなく相対的な視線幾何に依存する関数となり、視線間の角度的関係を符号化する。
- Geometr y-Aware Frame-Sparse Attention は密なアテンションを置換する、幾何学的に関連する過去フレームの小さな集合を選択し、長期的生成を低い計算コストで実現する。
- 訓練は段階的スケジュールを用いる—短いクリップで教師強制から、長い文脈のストリーミングとフレームスパースアテンションへ。
- 評価は ViewBench(ループ閉鎖 Fidelity と幾何学的ドリフトの診断スイート)と、3D RoPE および GTA のベースラインとの比較を組み合わせて行う。
実験結果
リサーチクエスチョン
- RQ1カメラ幾何を直接トランスフォーマーのアテンションへ組み込み、長期的な3D 一貫性をビデオ生成で改善できるか。
- RQ2パッチレベルの光線ベースアテンションは、ループ閉じシナリオにおける画面空間位置偏りより優れているか。
- RQ3幾何学条件付きのスパースアテンションは、メモリの永続性を損なうことなく幾何学的に関連する履歴を効率的に取得できるか。
- RQ4ViewRope およびフレームスパースアテンションが、長期的生成における視覚品質と幾何学的忠実度へ与える影響はどれほどか。
主な発見
| 方法 | 30 deg PSNR | 30 deg SSIM | 30 deg LPIPS | 30 deg LCE | 75 deg PSNR | 75 deg SSIM | 75 deg LPIPS | 75 deg LCE |
|---|---|---|---|---|---|---|---|---|
| 3D RoPE | 17.09 | 0.4133 | 0.4219 | 0.4929 | 14.78 | 0.3634 | 0.5501 | 0.4831 |
| GTA | 17.33 | 0.4325 | 0.4165 | 0.4707 | 15.12 | 0.3784 | 0.5403 | 0.4723 |
| ViewRope (Ours) | 17.53 | 0.4378 | 0.4080 | 0.4497 | 15.27 | 0.3916 | 0.5398 | 0.4562 |
- ViewRope はループ閉じ性能で最高を達成し、GTA ベースラインと比較して LCE を4%削減。
- 幾何学認識型エンコーディングは絶対エンコーディング(GTA および ViewRope は 3D RoPE より LCE などの指標で優れる)を一貫して上回る。
- ViewRope は視覚品質(PSNR/SSIM)を競争力のある水準に保ちつつ、幾何学的忠実度を向上させる。
- 幾何学的に認識されたスパースアテンションを用いた ViewRope は、スライディングウィンドウ方式より LCE をより多く低減し、訓練を安定化させる。
- スパース実験では、学習時間が約25%短縮(201フレーム系列で27.66 s/iter → 22.01 s/iter)、長期的一貫性が改善。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。