[論文レビュー] Dreamix: Video Diffusion Models are General Video Editors
Dreamix は、拡散モデルを用いたテキスト誘導の動画エディターを提供し、動画フレームの混合ファインチューニングと劣化入力動画を通じて元動画への忠実性を維持しつつ外観と動作の編集を可能にします。さらに画像アニメーションと主体駆動型動画生成も実現します。
Text-driven image and video diffusion models have recently achieved unprecedented generation realism. While diffusion models have been successfully applied for image editing, very few works have done so for video editing. We present the first diffusion-based method that is able to perform text-based motion and appearance editing of general videos. Our approach uses a video diffusion model to combine, at inference time, the low-resolution spatio-temporal information from the original video with new, high resolution information that it synthesized to align with the guiding text prompt. As obtaining high-fidelity to the original video requires retaining some of its high-resolution information, we add a preliminary stage of finetuning the model on the original video, significantly boosting fidelity. We propose to improve motion editability by a new, mixed objective that jointly finetunes with full temporal attention and with temporal attention masking. We further introduce a new framework for image animation. We first transform the image into a coarse video by simple image processing operations such as replication and perspective geometric projections, and then use our general video editor to animate it. As a further application, we can use our method for subject-driven video generation. Extensive qualitative and numerical experiments showcase the remarkable editing ability of our method and establish its superior performance compared to baseline methods.
研究の動機と目的
- 実写動画の外観と動作の一般的なテキスト編集を動画拡散モデルを用いて可能にする。
- 全時系列注意機構と時系列注意のマスクを組み合わせた混合ファインチューニング戦略により動作編集性を向上させ、総合的な編集品質を改善する。
- Dreamix エディタで編集するために、画像を粗い動画に変換してから画像→動画のワークフローを提案する。
- 特定の被写体画像セットでファインチューニングを行い、指示テキストで生成をガイドする主体駆動型動画生成を実証する。
提案手法
- テキストプロンプトと劣化入力動画を条件として高解像度の編集動画を生成するため、 cascaded な動画拡散モデル(Imagen-Video ベース)を使用する。
- 入力動画をダウンサンプリングとノイズ付与で破損させ、その後プロンプトを条件に拡散過程を逆向きに適用してテキスト誘導編集を実現する(腐敗の反転)。
- 入力動画の外観と動作の共同最適化と、マスクされた時系列注意を用いた未整列フレームセット上での混合ファインチューニングを導入し、フレームごとの詳細を保持しつつ動作編集を可能にする。
- 2つの目的で訓練する:ノイズのある劣化入力から入力動画を再構成するための L_vid、マスクされた時系列注意を用いて個々のフレームを再構成するための L_frame(D^a)。
- 画像を replication または透視変換で粗い動画に変換してから Dreamix 編集を適用し、高品質な編集動画を得る画像→動画ワークフローを提供する。
- 特殊トークン t* を用いて主体画像セットでファインチューニングし、生成時にテキストプロンプトを条件として主体駆動型動画生成を実現する。
実験結果
リサーチクエスチョン
- RQ1テキスト誘導の動画拡散モデルは、元動画への忠実性を保ちながら外観と動作の両方を編集できるか。
- RQ2混合ファインチューニングは、動画のみのファインチューニングや未ファインチューニングと比較して動作編集性と全体的編集品質を改善するか。
- RQ3Dreamix フレームワークを画像アニメーションと主体駆動型動画生成へ拡張できるか。
- RQ4高品質な動画編集におけるトレードオフと要件(ハイパーパラメータ、計算コストなど)は何か。
主な発見
| 編集タイプ | 編集回数 | ftなし | ビデオft | ミックスft | なし |
|---|---|---|---|---|---|
| モーション | 36 | 17% | 25% | 47% | 11% |
| スタイル | 15 | 67% | 7% | 20% | 6% |
| オブジェクト | 44 | 36% | 30% | 18% | 16% |
| 背景 | 32 | 19% | 28% | 44% | 9% |
- Dreamix は実世界の動画の外観と動作を、時間的一貫性を高めつつ一般的なテキストベースの編集を可能にする。
- マスク付き時系列注意を用いた混合ファインチューニングは、非混合や動画のみのファインチューニングと比べて動作編集を大幅に改善し、背景のディテールを保持する。
- Dreamix は画像を粗い動画へ変換してから Dreamix エディターで編集することにより、画像アニメーションの枠組みを提供する。
- 主体駆動型動画生成は、主体画像セットでのファインチューニングとテキストプロンプトによる生成により実現可能である。
- ベースラインと比較して、Dreamix はユーザー評価の質・忠実度・プロンプト整合性で高く、成功率は 73% 対 40%(ImgenVid)および 15%(PnP)となる。
- 定量的なベースラインは、Dreamix がフレームごとの編集アプローチよりも時間的一致性と忠実度で上回ることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。