[論文レビュー] Versatile Editing of Video Content, Actions, and Dynamics without Training
DynaEditは、 inversion-free 経路を通じて事前学習済みのテキストツゥビデオフロー模型を導くことにより、複雑な動画ダイナミクスと相互作用を編集する訓練不要の方法です。類似性ガイド付き集約とannealedノイズ相関を用いて編集表現力と元動画忠実度のバランスを取ります。
Controlled video generation has seen drastic improvements in recent years. However, editing actions and dynamic events, or inserting contents that should affect the behaviors of other objects in real-world videos, remains a major challenge. Existing trained models struggle with complex edits, likely due to the difficulty of collecting relevant training data. Similarly, existing training-free methods are inherently restricted to structure- and motion-preserving edits and do not support modification of motion or interactions. Here, we introduce DynaEdit, a training-free editing method that unlocks versatile video editing capabilities with pretrained text-to-video flow models. Our method relies on the recently introduced inversion-free approach, which does not intervene in the model internals, and is thus model-agnostic. We show that naively attempting to adapt this approach to general unconstrained editing results in severe low-frequency misalignment and high-frequency jitter. We explain the sources for these phenomena and introduce novel mechanisms for overcoming them. Through extensive experiments, we show that DynaEdit achieves state-of-the-art results on complex text-based video editing tasks, including modifying actions, inserting objects that interact with the scene, and introducing global effects.
研究の動機と目的
- 現実世界の動画における動作・ダイナミクス・相互作用を、訓練データを用いずに自由度の高いテキスト駆動で編集できるようにする。
- 非構造的・動的編集に苦戦する従来の inversion-free 手法の限界を克服する。
- テキストプロンプトで記述されたリッチな編集を適用しつつ、元の内容への忠実性を維持する。
- 相互作用する物体の挿入やグローバルなスタイル変更を、運動や同一性を劣化させずに行う課題に取り組む。
提案手法
- ノイズフリーのパスに沿って元動画を編集後の動画へ変換する inversion-free flow ベースの編集フレームワークを採用する。
- Similarity Guided Aggregation(SGA)を導入し、元動画との類似性に基づいて編集速度をソフトに選択する。
- Annealed Noise Correlation(ANC)を導入し、時間的ノイズ相関を徐々に高めて高周波のジッターを低減しつつ整合性を維持する。
- テキスト・最初のフレーム・動画の三つ組で訓練されたI2V(image-to-video)フロー模型を用いて編集を内容に応じて条件付けする。
- 編集を、ターゲット条件付きフローとソース条件付きフローの平均速度差を等分した導関数ODEとして定式化する。
- 実用的な疑似コード実装(FlowEditベースラインとSGAとANCを用いるDynaEdit)を参考として提供する。
- WAN2.1およびHunyuan I2Vモデルを用いた結果を示し、モデルに依存しない適用性を実証する。
実験結果
リサーチクエスチョン
- RQ1訓練不要で、動作や物体相互作用の無制限な変更を現実動画に対して拡張できるか。
- RQ2動的な編集を行う際に低周波の不整合や高周波のジッターを回避するために inversion-free 編集をどう適応させるか。
- RQ3SGAやANCなどのメカニズムは、従来の方法と比較して品質・忠実度を改善するか。
- RQ4DynaEditは訓練済みモデルや他の訓練不要ベースラインと比較して、さまざまな編集タスクでどう性能を示すか。
主な発見
- DynaEditは、現実動画での複雑な編集(動作・ダイナミクス・相互作用)において訓練不要手法の最先端の結果を達成する。
- テキスト適合性と視覚品質の点で、訓練済みAlephモデルと競合する性能を達成する。
- SGAはFlowEditの単純な速度平均化よりも元動画への整合性を改善する。
- ANCは低周波の整合性を損なうことなく高周波のジッターを低減する。
- 質的評価およびユーザ研究により、コンテンツ保持・テキスト適合・視覚品質の点で主要なベースラインよりDynaEditが優れていると評価された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。