[論文レビュー] Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation
VideoFactory は、3Dウィンドウ拡散フレームワーク内で Swapped Spatiotemporal Cross-Attention (Swap-CA) を導入し、オープンドメインのテキストから動画生成の空間と時間を共同でモデル化します。HD-VG-130M で訓練し、高解像度で透かしのない 16:9 のビデオを実現します。
With the explosive popularity of AI-generated content (AIGC), video generation has recently received a lot of attention. Generating videos guided by text instructions poses significant challenges, such as modeling the complex relationship between space and time, and the lack of large-scale text-video paired data. Existing text-video datasets suffer from limitations in both content quality and scale, or they are not open-source, rendering them inaccessible for study and use. For model design, previous approaches extend pretrained text-to-image generation models by adding temporal 1D convolution/attention modules for video generation. However, these approaches overlook the importance of jointly modeling space and time, inevitably leading to temporal distortions and misalignment between texts and videos. In this paper, we propose a novel approach that strengthens the interaction between spatial and temporal perceptions. In particular, we utilize a swapped cross-attention mechanism in 3D windows that alternates the "query" role between spatial and temporal blocks, enabling mutual reinforcement for each other. Moreover, to fully unlock model capabilities for high-quality video generation and promote the development of the field, we curate a large-scale and open-source video dataset called HD-VG-130M. This dataset comprises 130 million text-video pairs from the open-domain, ensuring high-definition, widescreen and watermark-free characters. A smaller-scale yet more meticulously cleaned subset further enhances the data quality, aiding models in achieving superior performance. Experimental quantitative and qualitative results demonstrate the superiority of our approach in terms of per-frame quality, temporal correlation, and text-video alignment, with clear margins.
研究の動機と目的
- フレーム単位の画像バックボーンを超えた高品質なオープンドメインの動画生成を動機づける。
- 時空間の共同モデリングを探索し、時系列歪みを低減し、テキストと動画の整合性を向上させる。
- 高解像度出力のある、スケーラブルで透かしなしの動画生成パイプラインを開発する。
- オープンドメインの動画合成を支える大規模な学習コーパス(HD-VG-130M)を作成する。
提案手法
- 3D ウィンドウ内で Swapped Spatiotemporal Cross-Attention (Swap-CA) を提案し、空間特徴と時間特徴の相互作用を可能にする。
- 3D ノイズ予測のために時空間 U-Net を備えた潜在拡散フレームワークを使用する。
- ブロック境界で Swap-CA を組み込み、3D ウィンドウアテンションを用いて性能と効率のバランスを取る。
- トレーニング用に BLIP-2 キャプションを付けた、オープン・ドメインソースからの大規模な 130M-text-video-pair データセット(HD-VG-130M)を構築する。
- 1376×768 の出力を達成するために、2×の空間アップスケーリングと Real-ESRGAN ベースの超解像モジュールを適用する。
- 多様なテキストプロンプトへの一般化を向上させるため、HD-VG-130M と WebVid-10M の結合データで訓練する。

実験結果
リサーチクエスチョン
- RQ1時空間の結合的な相互作用は、テキストから動画生成の品質と意味的整合性をどのように向上させるか?
- RQ2スワップクロスアテンションは、空間モダリティと時間モダリティ間の相互作用は、時間的歪みを減らし、テキストと動画の一貫性を向上させるか?
- RQ3大規模で高解像度のオープンドメイン動画データが動画生成性能に与える影響は何か?
主な発見
| Dataset | Method | Zero-shot | FVD (lower is better) | CLIPSIM (higher is better) |
|---|---|---|---|---|
| UCF101 | Ours | Yes | 410.0 | 0.3005 |
| MSR-VTT | Ours | Yes | - | 0.3005 |
| WebVid-10M (Val) | Ours | Yes | 292.35 | 0.3070 |
- Swap-CA は空間特徴と時間特徴の相互強化を可能にし、アブレーションでテキスト-動画の整合性(CLIPSIM)と動画品質(FVD)を改善。
- 3D ウィンドウアテンションは、メモリと時間コストを大幅に削減しつつ、性能を維持または向上させる。
- HD-VG-130M、130M 対のオープンドメインデータセットは、生成品質を著しく向上させ、追加後の WebVid-10M val の FVD を 45.74 改善。
- VideoFactory はハイビジョン 1376×768、ワイドスクリーンの透かしなし出力を実現。
- ゼロショット評価では、VideoFactory は MSR-VTT (CLIPSIM 0.3005) および UCF101 (FVD 410.0) で、いくつかのベースラインと比べて競争力がある、または優れているスコアを達成。
- 人間の評価では、VideoFactory が動画品質とテキスト-動画相関の点で、いくつかの最先端手法より優れていると評価。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。