[論文レビュー] SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction
SEINEは、シーン間の滑らかな遷移を作り出し、自己回帰予測を可能にする長尺のストーリーレベル動画を生成するためのショート・ツー・ロング(S2L)拡散モデルを導入します。ランダムマスク拡散機構を、テキストと入力フレームを条件として組み込みます。
Recently video generation has achieved substantial progress with realistic results. Nevertheless, existing AI-generated videos are usually very short clips ("shot-level") depicting a single scene. To deliver a coherent long video ("story-level"), it is desirable to have creative transition and prediction effects across different clips. This paper presents a short-to-long video diffusion model, SEINE, that focuses on generative transition and prediction. The goal is to generate high-quality long videos with smooth and creative transitions between scenes and varying lengths of shot-level videos. Specifically, we propose a random-mask video diffusion model to automatically generate transitions based on textual descriptions. By providing the images of different scenes as inputs, combined with text-based control, our model generates transition videos that ensure coherence and visual quality. Furthermore, the model can be readily extended to various tasks such as image-to-video animation and autoregressive video prediction. To conduct a comprehensive evaluation of this new generative task, we propose three assessing criteria for smooth and creative transition: temporal consistency, semantic similarity, and video-text semantic alignment. Extensive experiments validate the effectiveness of our approach over existing methods for generative transition and prediction, enabling the creation of story-level long videos. Project page: https://vchitect.github.io/SEINE-project/ .
研究の動機と目的
- ストーリーレベルの動画生成における生成的遷移と予測の問題を定義する。
- シーン間の滑らかな遷移を生み出すショート・ツー・ロング(S2L)拡散モデルであるSEINEを開発する。
- ランダムマスク条件付けスキームを用いて、自己回帰的な長編動画予測および画像から動画へのアニメーションを可能にする。
提案手法
- 初期化には、事前学習済みのLaVieベースのテキストから動画への拡散フレームワークをベースにする。
- フレームを選択的に可視化するランダムマスク入力層を導入し、テキストと潜在フレームでモデルを条件付ける。
- キャプションと可視フレーム潜在表現へのデュアル条件付けのため、p_theta(z0|c, z0~)を定式化する。
- マスク付き条件付け入力を介して破損した潜在表現上のノイズϵ_thetaを予測する潜在拡散による訓練。
- 時間的一貫性、意味的類似性、および動画とテキストの整合性を強調する遷移目的を定義し、最適化する。
- 最後のフレームとマスクを用いた自己回帰的デコードにより、長尺動画生成を拡張可能にする。)
実験結果
リサーチクエスチョン
- RQ12つのシーン間の遷移を、時間的一貫性と意味的滑らかさを両立するように生成するにはどうすればよいか?
- RQ2拡散ベースのフレームワークは、テキスト記述に条件付けられた、制御可能で多様な遷移を生み出せるか?
- RQ3時間的一貫性、意味的類似性、および動画とテキストの整合性を用いて、遷移と長尺動画予測をどの程度評価できるか?
- RQ4SEINEは画像から動画へのアニメーションと自己回帰的長尺動画予測にどの程度対応できるか?
主な発見
| Method | CLIPSIM-text (↑) | CLIPSIM-Scenes (↑) | CLIPSIM-frames (↑) |
|---|---|---|---|
| Morphing | 0.2535 | 0.7707 | 0.9569 |
| VQGAN-based Transition | 0.2528 | 0.7389 | 0.9542 |
| SD-based Transition | 0.2665 | 0.6080 | 0.8809 |
| Ours | 0.2726 | 0.7740 | 0.9675 |
- SEINEは、テキスト、シーン、フレーム別のCLIPSIM指標で、モーフィング、VQGANベース、SDベースの遷移ベースラインを上回る。
- 人間の評価者は、比較の大多数でSEINE生成の遷移をベースラインより好んだ。
- 本モデルは多様な遷移結果を達成し、カメラ動作プロンプトを介してテキスト制御可能な遷移を可能にする。
- SEINEは自己回帰予測により長尺動画を生成でき、視覚品質と意味的一貫性を維持する。
- 本手法は画像から動画へのアニメーションをサポートし、特殊化された動画生成システムと競合力を保つ。
- 定性的な結果は、ベースラインと比較して、より滑らかな遷移と長いシーケンスの一貫性の向上を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。