[論文レビュー] ModelScope Text-to-Video Technical Report
ModelScopeT2V は、Stable Diffusion を基盤とし、時空ブロックとマルチフレーム学習を用いてテキストプロンプトから整合性のある動画を生成するオープンソースの拡散モデルです。定量的な競争力のある結果を達成し、今後の動画合成研究のためのアクセス可能なベースラインを提供します。
This paper introduces ModelScopeT2V, a text-to-video synthesis model that evolves from a text-to-image synthesis model (i.e., Stable Diffusion). ModelScopeT2V incorporates spatio-temporal blocks to ensure consistent frame generation and smooth movement transitions. The model could adapt to varying frame numbers during training and inference, rendering it suitable for both image-text and video-text datasets. ModelScopeT2V brings together three components (i.e., VQGAN, a text encoder, and a denoising UNet), totally comprising 1.7 billion parameters, in which 0.5 billion parameters are dedicated to temporal capabilities. The model demonstrates superior performance over state-of-the-art methods across three evaluation metrics. The code and an online demo are available at \url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary}.
研究の動機と目的
- Diffusion-based text-to-video generation を開放的でアクセスしやすいものにする動機づけと、動画合成の実用的なベースラインを確立する。
- テキストから画像への拡散フレームワークを時間的能力と組み合わせて動画生成へ拡張。
- 画像-テキストおよび動画-テキストデータを活用して意味理解と時間的ダイナミクスを豊かにする。
- 学習をさまざまなフレーム数とデータセットで安定させるトレーニング戦略を提供する。
提案手法
- 潜在拡散を、空間的・時間的モデリングを統合する時空ブロックで拡張して、空間-時間モデリングを結合する。
- テキストをクロスアテンションを介して CLIP ViT-H/14 エンコーダで注入し、言語-視覚の整合を図る。
- 高解像度データを扱うため、VQGAN エンコード/デコードを備えた潜在空間で動作する。
- 画像-テキストおよび動画-テキストデータを用いるマルチフレーム学習パイプラインを適用して、意味的カバレッジを広げる。
- 動作は DDPM と DDIM のサンプリングで、時間的畳み込みと時間的アテンションを用いて運動を捉える。)],
- research_questions":[
実験結果
リサーチクエスチョン
- RQ1diffusion-based model をどのように拡張して、テキストプロンプトから一貫した動画シーケンスを生成できるか?
- RQ2画像-テキストと動画-テキストのトレーニングデータを組み合わせると、意味的豊かさと時間的一貫性は向上するか?
- RQ3どのようなアーキテクチャ要素(時空ブロック)と学習戦略が、標準ベンチマーク上で競争力のある動画生成品質を生み出すか?
主な発見
| モデル | FID-vid (↓) | FVD (↓) | CLIPSIM (↑) |
|---|---|---|---|
| NÜWA | 47.68 | - | 0.2439 |
| CogVideo (Chinese) | 24.78 | - | 0.2614 |
| CogVideo (English) | 23.59 | 1294 | 0.2631 |
| MagicVideo | - | 1290 | - |
| Video LDM | - | - | 0.2929 |
| Make-A-Video | 13.17 | - | 0.3049 |
| ModelScopeT2V (ours) | 11.09 | 550 | 0.2930 |
- ModelScopeT2V は、MSR-VTT のリストされたベースラインの中で最も良い FID-vid および FVD スコアを達成(FID-vid 11.09、FVD 550)。
- CLIPSIM スコア 0.2930 は、プロンプトとの意味的整合性が高く、Make-A-Video と競合する水準である。
- 時系列モデリングは、時系列畳み込みと時系列アテンションの両方を時空ブロック内で活用することで、動きのリアリズム向上に貢献した。
- モデルは約 1.7 億パラメータで、時間的能力に 39%(UNet の 1,345M のうち 552M)を割り当てている。
- ゼロショットの MSR-VTT 評価は、タスク固有のファインチューニングなしで競争力を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。