[論文レビュー] MosaicMem: Hybrid Spatial Memory for Controllable Video World Models
MosaicMem は、パッチを3Dに持ち上げて正確な局在化を実現し、暗黙的リトリーブを条件付けとして活用するハイブリッドな空間メモリを導入します。これにより、メモリに基づくシーン編集を用いた controllable で長期的な動画生成が可能になります。
Video diffusion models are moving beyond short, plausible clips toward world simulators that must remain consistent under camera motion, revisits, and intervention. Yet spatial memory remains a key bottleneck: explicit 3D structures can improve reprojection-based consistency but struggle to depict moving objects, while implicit memory often produces inaccurate camera motion even with correct poses. We propose Mosaic Memory (MosaicMem), a hybrid spatial memory that lifts patches into 3D for reliable localization and targeted retrieval, while exploiting the model's native conditioning to preserve prompt-following generation. MosaicMem composes spatially aligned patches in the queried view via a patch-and-compose interface, preserving what should persist while allowing the model to inpaint what should evolve. With PRoPE camera conditioning and two new memory alignment methods, experiments show improved pose adherence compared to implicit memory and stronger dynamic modeling than explicit baselines. MosaicMem further enables minute-level navigation, memory-based scene editing, and autoregressive rollout.
研究の動機と目的
- カメラの動きと再訪時にも一貫性を保つ持続的で制御可能なビデオワールドモデルを動機付ける。
- 動的シーンにおける純粋に明示的または純粋に暗黙的なメモリの限界を調査する。
- Patchベースのハイブリッドメモリとして Mosaic Mem を提案し、明示的な3Dリフティングと暗黙的条件付けを組み合わせる。
提案手法
- 局在化のために3Dにリフティングされたパッチベースメモリユニット Mosaic Memory を導入し、暗黙的条件付けを通じて参照信号として利用する。
- Warped RoPE と Warped Latent を用いて、幾何情報に基づく投影でメモリパッチを現在の視点と整合させる。
- 生成時の視点制御性を改善するカメラ条件付けインタフェースとして PRoPE を組み込む。
- 確率フローODEを持つニューラルベクタ場による TI2V(テキスト+画像から動画へ)フレームワーク内で、メモリと揃えた生成パイプラインを提供する。
- 評価のため revisits と長期的メモリ検索を強調したデータセット MosaicMem-World を作成。
- リアルタイム性能のためのメモリ操作と自己回帰的長期生成(Mosaic Forcing)を可能にする。
実験結果
リサーチクエスチョン
- RQ1MosaicMem は、既存の明示的または暗黙的メモリのベースラインよりも、より正確なカメラ運動と長距離の一貫性を達成できるか。
- RQ2パッチベースの Mosaic Memory は、プロンプト追従生成を維持しつつ、動く物体の頑健な処理を可能にするか。
- RQ3Warped RoPE、Warped Latent といったワーピングベースの整合手法は、メモリの整合と視覚的忠実性にどのように寄与するか。
- RQ4PRoPE カメラ条件付けは、視点制御性と memory-guided な生成にどのような影響を及ぼすか。
- RQ5シーン編集と長期的自己回帰生成のためのメモリ Manipulation の程度はどの程度か。
主な発見
| Method | RotErr (°) ↓ | TransErr ↓ | FID ↓ | FVD ↓ | SSIM ↑ | PSNR ↑ | LPIPS ↓ | Dynamic ↑ |
|---|---|---|---|---|---|---|---|---|
| MosaicMem (full) | 0.51 | 0.06 | 65.67 | 232.95 | 0.75 | 23.57 | 0.11 | 2.58 |
- MosaicMem は暗黙的メモリベースラインよりもカメラ運動の精度を改善し、明示的メモリベースラインより動的オブジェクトの扱いが頑健。
- Warped RoPE と Warped Latent の両方を組み合わせた完全版の MosaicMem が、カメラ制御・視覚品質・メモリ検索の総合的な性能で最も良い結果を達成。
- 混合ワーピング戦略は、最も頑健なメモリ条件付けをもたらし、自己回帰生成中のアーティファクトを最小化。
- MosaicMem は、長時間の持続的メモリを用いた分単位のナビゲーションとシーン編集(パッチレベルの操作)を可能にする。
- Mosaic Forcing により、REL IC や Matrix-Game 2.0 と比較して、品質と一貫性の高いリアルタイム自己回帰生成(640x360 で 16 FPS)が実現可能。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。