[論文レビュー] Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs
Dysen-VDMは、Dynamic Scene Manager(Dysen)を用いてアクションを計画し、それらを動的シーングラフに変換し、LLMsでシーンを豊かにすることで、モーションダイナミクスとアクションが複雑なビデオの生成を改善し、拡散ベースのテキストから動画生成を強化します。
Text-to-video (T2V) synthesis has gained increasing attention in the community, in which the recently emerged diffusion models (DMs) have promisingly shown stronger performance than the past approaches. While existing state-of-the-art DMs are competent to achieve high-resolution video generation, they may largely suffer from key limitations (e.g., action occurrence disorders, crude video motions) with respect to the intricate temporal dynamics modeling, one of the crux of video synthesis. In this work, we investigate strengthening the awareness of video dynamics for DMs, for high-quality T2V generation. Inspired by human intuition, we design an innovative dynamic scene manager (dubbed as Dysen) module, which includes (step-1) extracting from input text the key actions with proper time-order arrangement, (step-2) transforming the action schedules into the dynamic scene graph (DSG) representations, and (step-3) enriching the scenes in the DSG with sufficient and reasonable details. Taking advantage of the existing powerful LLMs (e.g., ChatGPT) via in-context learning, Dysen realizes (nearly) human-level temporal dynamics understanding. Finally, the resulting video DSG with rich action scene details is encoded as fine-grained spatio-temporal features, integrated into the backbone T2V DM for video generating. Experiments on popular T2V datasets suggest that our Dysen-VDM consistently outperforms prior arts with significant margins, especially in scenarios with complex actions. Codes at https://haofei.vip/Dysen-VDM
研究の動機と目的
- テキストから動画拡散モデルの時間的ダイナミクスのモデル化を改善する動機付け。
- T2Vにおけるアクション発生の乱れ・粗いモーション・時間的一貫性の欠如を解決する。
- 大規模言語モデルを活用してアクションを計画し、よりリッチなシーンを想像する。
提案手法
- 3段階のDysenモジュール: (1) チャットGPTを用いた文からのアクション計画; (2) 順序付けられたアクションを逐次的な動的シーングラフ(DSG)へ変換; (3) チャットGPTとスライディングウィンドウの文脈でDSGを詳細なシーンで豊かにする。
- 豊富化したDSGを再帰的グラフトランスフォーマー(RGTrm)でエンコードし、細かな時空特徴を取得。
- DSG特徴を3D-UNetデコーダを介して潜在拡散モデル(LDM)のテキスト(CLIPエンコード)とクロスアテンションを通じて融合し、動画生成を誘導。
実験結果
リサーチクエスチョン
- RQ1動的シーングラフはテキストから動画拡散モデルの時間的ダイナミクスをどのように改善できるのか?
- RQ2LLM主導のアクション計画とシーン想像は、複雑なアクションを持つより滑らかで一貫した動画を生み出すのか?
- RQ3DSGガイド付き表現は、アクション忠実度・シーンの豊かさ・動きの滑らかさの点でどのような利点を提供するのか?
主な発見
| Method | UCF-101 IS | MSR-VTT FVD | IS (↑) | FVD (↓) | FID (↓) | CLIPSIM (↑) |
|---|---|---|---|---|---|---|
| CogVideo | 25.27 | 701.59 | 23.59 | 0.2631 | ||
| MagicVideo | / | 699.00 | / | / | ||
| MakeVideo | 33.00 | 367.23 | 13.17 | 0.3049 | ||
| AlignLatent | 33.45 | 550.61 | / | / | 0.2929 | |
| Latent-VDM | / | / | 14.25 | 0.2756 | / | |
| Latent-Shift | / | / | 15.23 | 0.2773 | / | |
| Dysen-VDM | 35.57 | 325.42 | 12.64 | 0.3204 | / |
- Dysen-VDMは、ゼロショットのUCF-101およびMSR-VTTにおいてISとFVDの指標でベースラインを上回り、アクションに富むプロンプトで特に大きなマージンを示した。
- UCF-101データでのファインチューニングは最先端のISとFVDスコアを達成(例: IS 95.23、FVD 255.42)。
- アクション複雑なシナリオ(ActivityNet)では、アクションの複雑さが増すほどDysen-VDMの性能が特に強化される。
- ActivityNetでの人間評価は、Dysen-VDMのアクション忠実度・シーンの豊かさ・動きの流暢さのスコアが高いことを示した(例: シーンの豊かさ92.4)。
- 定性的な結果は、Latent-VDMと比べて生成動画のダイナミクスがよりはっきりし、DSGの説明が豊かであることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。