QUICK REVIEW

[論文レビュー] Memory-V2V: Memory-Augmented Video-to-Video Diffusion for Consistent Multi-Turn Editing

Dohun Lee, Chun-Hao P. Huang|arXiv (Cornell University)|Jan 22, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

Memory-V2V は外部メモリ、検索ベースの条件付け、適応的トークン化を組み込むことで、複数ターンの動画編集におけるクロス・ターンの一貫性を実現し、約 30% の速度向上を達成します。

ABSTRACT

Video-to-video diffusion models achieve impressive single-turn editing performance, but practical editing workflows are inherently iterative. When edits are applied sequentially, existing models treat each turn independently, often causing previously generated regions to drift or be overwritten. We identify this failure mode as the problem of cross-turn consistency in multi-turn video editing. We introduce Memory-V2V, a memory-augmented framework that treats prior edits as structured constraints for subsequent generations. Memory-V2V maintains an external memory of previous outputs, retrieves task-relevant edits, and integrates them through relevance-aware tokenization and adaptive compression. These technical ingredients enable scalable conditioning without linear growth in computation. We demonstrate Memory-V2V on iterative video novel view synthesis and text-guided long video editing. Memory-V2V substantially enhances cross-turn consistency while maintaining visual quality, outperforming strong baselines with modest overhead.

研究の動機と目的

実世界のワークフローにおける一貫した複数ターンの動画編集と反復間の持続性の問題を定義する。
事前学習済みの video-to-video 拡散モデルを明示的な視覚メモリで拡張する Memory-V2V を導入する。
タスク特化の検索と動的トークン化を開発し、現在の編集を前結果に条件付ける。
計算量を削減しつつ本質的な手掛かりを保持する適応的トークン統合機構を提案する。
動画の新規ビュー合成と長文ガイド付き動画編集で有効性を示す。

提案手法

過去の編集の潜在表現を格納する外部メモリキャッシュを使用し、条件付けのために上位 k 件の最も関連性の高い動画を取得する。
VideoFOV ベースの検索を用いて、現在のターゲットビューとキャッシュ済み動画との関連性を測定する。
関連性に基づいて取得動画を適応的にトークン化するため、複数のカーネルサイズを持つ動的トークナイザを実装する。
重要な手掛かりを維持しつつ、あまり情報量の少ないトークンを圧縮する学習可能な適応的トークン統合モジュールを導入する。
memory コンポーネントと rectified flow matching などのトレーニング損失で base モデル（ビュー合成用の ReCamMaster、テキスト誘導編集用の LucyEdit）をファインチューニングする。
長編のテキスト誘導編集へ拡張するため、ソースセグメントの類似性でメモリをインデックス化し、短いセグメントを反復的に編集する。

Figure 2 : Overview of Memory-V2V. (a) From an external cache of previously edited videos, only the top- $k$ most relevant videos are retrieved and used as memory inputs to ensure cross-iteration consistency. (b) Dynamic tokenizers allocate more tokens to highly relevant videos—preserving fine detai

実験結果

リサーチクエスチョン

RQ1複数ターンの動画編集をどのように反復間で横断的に一貫させられるか。
RQ2明示的な視覚メモリは、過度な計算オーバーヘッドなしに一貫性を改善できるか。
RQ3どの検索・圧縮戦略が、関連する過去の手掛かりを保持しつつ効率性を維持するのに最も適しているか。
RQ4 Memory-augmented 編集は新規ビュー合成と長文テキスト誘導編集の両方に一般化できるか。

主な発見

Memory-V2V は新規ビュー合成と長編動画編集の両方で、ベースラインより高い反復間一貫性を達成する。
適応的トークン化を備えた検索ベースのメモリ戦略は、関連する過去の編集に対する重要なディテールを保持しつつ計算量を抑える。
適応的トークン統合は、メモリコンテキストが増大しても FLOPs と待機時間を 30% 以上削減する。
Memory-V2V は、タスク固有の品質を維持または向上させつつ、複数編集にわたる反復間の一貫性を高める。

Figure 3 : Comparison of different memory encoders on two-turn novel view synthesis. The red-colored box depicts the novel region which are expected to be consistent between ${\boldsymbol{x}}_{1}$ and ${\boldsymbol{x}}_{2}$ .

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。