QUICK REVIEW

[論文レビュー] Towards Consistent Video Editing with Text-to-Image Diffusion Models

Zicheng Zhang, Bonan Li|arXiv (Cornell University)|May 27, 2023

Generative Adversarial Networks and Image Synthesis被引用数 7

ひとこと要約

EI 2 は、時間モジュールからの共変動シフトに対処することでテキスト駆動の動画編集を強化し、STAM と FFAM を用いて時間的一貫性と意味的整合性を改善します。

ABSTRACT

Existing works have advanced Text-to-Image (TTI) diffusion models for video editing in a one-shot learning manner. Despite their low requirements of data and computation, these methods might produce results of unsatisfied consistency with text prompt as well as temporal sequence, limiting their applications in the real world. In this paper, we propose to address the above issues with a novel EI$^2$ model towards extbf{E}nhancing v extbf{I}deo extbf{E}diting cons extbf{I}stency of TTI-based frameworks. Specifically, we analyze and find that the inconsistent problem is caused by newly added modules into TTI models for learning temporal information. These modules lead to covariate shift in the feature space, which harms the editing capability. Thus, we design EI$^2$ to tackle the above drawbacks with two classical modules: Shift-restricted Temporal Attention Module (STAM) and Fine-coarse Frame Attention Module (FFAM). First, through theoretical analysis, we demonstrate that covariate shift is highly related to Layer Normalization, thus STAM employs a extit{Instance Centering} layer replacing it to preserve the distribution of temporal features. In addition, {STAM} employs an attention layer with normalized mapping to transform temporal features while constraining the variance shift. As the second part, we incorporate {STAM} with a novel {FFAM}, which efficiently leverages fine-coarse spatial information of overall frames to further enhance temporal consistency. Extensive experiments demonstrate the superiority of the proposed EI$^2$ model for text-driven video editing.

研究の動機と目的

ワンショット TTI-to-TTV 動画編集における時間的・意味的一貫性の改善という動機。
時間モジュールが編集能力を劣化させる共変動シフトを引き起こす理由の調査。
テキスト駆動の編集を保持しつつ時間的一貫性を確保する理論的に基づくモジュールの開発。
事前学習済み TTI モデルを動画編集タスクへインフレートする際の実用的なワンショット微調整ガイダンスを提供。

提案手法

STAM (Shift-restricted Temporal Attention) と FFAM (Fine-coarse Frame Attention) の2つのモジュールを備えた EI2 の提案。
拡散ベースのトランスフォーマーにおける TA モジュールと Layer Normalization によって生じる共変動シフトの理論分析。
平均のシフトを制約するために Layer Norm を Instance Centering に置換し、分散シフトを抑制するためにスペクトral 正規化を適用。
FFAM は現在のフレームからの微細情報を他のフレームの粗い特徴と相互作用させ、グローバルな空間-時間的一貫性を実現。
事前学習済み LDMs を空間畳み込みを疑似3Dへ変換することで TTV モデルへインフレートし、ワンショット設定で拡散損失を用いてチューニング。

実験結果

リサーチクエスチョン

RQ1新たに追加された時間モジュールによって共変動シフトが発生し、TTI ベースの動画編集でテキスト駆動の編集が劣化するのか？
RQ2STAM と FFAM は従来手法と比較して意味的乖離を緩和し、時間的一貫性を改善するのか？
RQ3ワンショット調整された動画拡散モデルで、グローバルな時間的一貫性を確保しつつ編集能力を維持する方法は？
RQ4Layer Norm を Instance Centering に置換し、スペクトral 正規化を適用することの理論的・実践的な影響は？
RQ5FFAM と SCA の組み合わせにおける時間的一貫性と計算効率のトレードオフはどのようになるか？

主な発見

EI2 は Tune-A-Video、Vid2Vid-zero、Video-P2P に比べて定性的比較で優れた意味的整合性と時間的一貫性を達成。
定量的な結果では EI2 が最も高いユーザ投票を獲得し、CLIP ベースのフレーム整列も競合的で、トレーニングおよび推論コストを合理的に維持。
アブレーションにより Layer Norm を Instance Centering に置換し、ウェイト正規化を適用することで共変動シフトを実質的に低減し、テキスト案内を改善。
FFAM は現在のフレームからの微細情報と他フレームの粗い情報を組み合わせることで、SCA よりも時間的一貫性を高める。
提案された STAM は分布シフトを効果的に制限し、時間的動的性を損なうことなく編集忠実度を向上。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。