QUICK REVIEW

[論文レビュー] Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models

Wen Wang, Jiang, Yan|arXiv (Cornell University)|Mar 30, 2023

Generative Adversarial Networks and Image Synthesis被引用数 23

ひとこと要約

トレーニング不要の手法（vid2vid-zero）は、事前学習済みの画像拡散モデルをnull-text inversion、空間-時間注意機構、フレーム間正則化を再利用して、動画を編集し、動画特有の訓練なしでテキストに整合した時系列的一貫性のある編集を実現する。

ABSTRACT

Large-scale text-to-image diffusion models achieve unprecedented success in image generation and editing. However, how to extend such success to video editing is unclear. Recent initial attempts at video editing require significant text-to-video data and computation resources for training, which is often not accessible. In this work, we propose vid2vid-zero, a simple yet effective method for zero-shot video editing. Our vid2vid-zero leverages off-the-shelf image diffusion models, and doesn't require training on any video. At the core of our method is a null-text inversion module for text-to-video alignment, a cross-frame modeling module for temporal consistency, and a spatial regularization module for fidelity to the original video. Without any training, we leverage the dynamic nature of the attention mechanism to enable bi-directional temporal modeling at test time. Experiments and analyses show promising results in editing attributes, subjects, places, etc., in real-world videos. Code is made available at \url{https://github.com/baaivision/vid2vid-zero}.

研究の動機と目的

大規模なテキスト-videoデータセットや動画特有の訓練を必要とせず、ゼロショットの動画編集を促進する。
元の動画への忠実性を保ちつつ、プロンプトに整合するテキスト駆動の編集を可能にする。
事前学習済みの画像拡散モデルを活用して、時系列的一貫性を持つ動画編集を行う。
トレーニング不要な設定で、テキスト-動画の整合性、忠実度、品質のバランスをとるメカニズムを探究する。

提案手法

DDIM inversionを用いて動画フレームを潜在空間に写像する。
ソースプロンプトに inversion 結果を整合させるために null-text 最適化を適用する。
空間-時間注意機構（ST-Attn）を導入し、フレーム間の双方向の時系列モデリングを可能にする。
入力動画への忠実度を保つために、クロスアテンションマップを注入して空間的正則化を組み込む。
再訓練なしでテスト時の時系列モデリングを可能にするため、自己注意をフレーム間注意に置換する。
動画推論のために2D拡散ブロックを3Dに拡張し、フレーム間で重みを共有する。

実験結果

リサーチクエスチョン

RQ1動画訓練を行わず、事前学習済みの画像拡散モデルのみでゼロショットの動画編集を実現できるか？
RQ2画像拡散モデルを用いて動画の各フレームを編集する際、時系列的一貫性をどのように確保するか？
RQ3inversion、注意機構、正則化のどの組み合わせが忠実でプロンプトに整合した編集動画を生み出すか？
RQ4テスト時の双方向時系列モデリングは編集品質と時系列的一貫性にどのように影響するか？

主な発見

vid2vid-zeroはゼロショット設定で元の動画への忠実度を保ちつつ、テキストに整合した編集を実現する。
密な空間-時間注意機構は双方向の時系列モデリングを可能にし、フレームごとの編集より時系列的一貫性を向上させる。
null-text最適化は反転潜在軌跡をソースプロンプトに整合させ、再構成忠実度を向上させる。
クロスアテンションマップによる空間的正則化は内容の忠実度を保持し、編集をプロンプト領域へ誘導する。
アブレーション研究は、時系列モデリング、空間的ガイダンス、またはnull-text inversionを除くと編集品質と一貫性が低下することを示す。
本手法は主観的品質とフレーム一貫性指標においてTune-A-VideoおよびPlug-and-Playと比べて有利である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。