[论文解读] Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation
VideoFactory 在一个 3D 窗口扩散框架中引入 Swapped Spatiotemporal Cross-Attention(Swap-CA),以联合建模时空用于开域文本到视频生成,并在 HD-VG-130M 上训练,以实现高分辨率、无水印、16:9 的视频。
With the explosive popularity of AI-generated content (AIGC), video generation has recently received a lot of attention. Generating videos guided by text instructions poses significant challenges, such as modeling the complex relationship between space and time, and the lack of large-scale text-video paired data. Existing text-video datasets suffer from limitations in both content quality and scale, or they are not open-source, rendering them inaccessible for study and use. For model design, previous approaches extend pretrained text-to-image generation models by adding temporal 1D convolution/attention modules for video generation. However, these approaches overlook the importance of jointly modeling space and time, inevitably leading to temporal distortions and misalignment between texts and videos. In this paper, we propose a novel approach that strengthens the interaction between spatial and temporal perceptions. In particular, we utilize a swapped cross-attention mechanism in 3D windows that alternates the "query" role between spatial and temporal blocks, enabling mutual reinforcement for each other. Moreover, to fully unlock model capabilities for high-quality video generation and promote the development of the field, we curate a large-scale and open-source video dataset called HD-VG-130M. This dataset comprises 130 million text-video pairs from the open-domain, ensuring high-definition, widescreen and watermark-free characters. A smaller-scale yet more meticulously cleaned subset further enhances the data quality, aiding models in achieving superior performance. Experimental quantitative and qualitative results demonstrate the superiority of our approach in terms of per-frame quality, temporal correlation, and text-video alignment, with clear margins.
研究动机与目标
- 推动高质量的开域视频生成,超越逐帧图像骨干。
- 探索联合时空建模以减少时间扭曲并提高文本-视频对齐。
- 开发可扩展的无水印高定义输出的视频生成流水线。
- 创建大规模训练语料库(HD-VG-130M)以支持开域视频合成。
提出的方法
- 提出在 3D 窗口中的 Swapped Spatiotemporal Cross-Attention(Swap-CA),使空间和时间特征之间实现互相作用。
- 使用带有时空 U-Net 的潜在扩散框架进行 3D 噪声预测。
- 在模块边界引入 Swap-CA,并使用 3D 窗口注意力以平衡性能与效率。
- 从开域来源构建一个大规模的 130M 文本-视频对数据集(HD-VG-130M),并使用 BLIP-2 标注进行训练。
- 应用 2× 空间上采样和基于 Real-ESRGAN 的超分辨率模块,以达到 1376×768 的输出。
- 使用来自 HD-VG-130M 和 WebVid-10M 的联合数据进行训练,以提升对多样化文本提示的泛化能力。

实验结果
研究问题
- RQ1如何通过联合的时空交互来提高文本到视频生成的质量和语义对齐?
- RQ2空间与时间模态之间的交换式交叉注意力是否能减少时间扭曲并改善文本-视频的一致性?
- RQ3大规模高定义开域视频数据对视频生成性能有何影响?
主要发现
| 数据集 | 方法 | 零样本 | FVD(越低越好) | CLIPSIM(越高越好) |
|---|---|---|---|---|
| UCF101 | 我们的 | 是 | 410.0 | 0.3005 |
| MSR-VTT | 我们的 | 是 | - | 0.3005 |
| WebVid-10M (Val) | 我们的 | 是 | 292.35 | 0.3070 |
- Swap-CA 使空间和时间特征实现相互强化,在消融实验中提升文本-视频对齐(CLIPSIM)和视频质量(FVD)。
- 3D 窗口注意力显著降低内存和时间成本,同时维持或提升性能。
- HD-VG-130M,一个 130M 对的开域数据集,显著提升生成质量(在 WebVid-10M 验证集上 FVD 提升 45.74)
- VideoFactory 实现了高定义 1376×768、宽屏的视频且输出无水印。
- 在零-shot 评估中,与若干基线相比,VideoFactory 在 MSR-VTT(CLIPSIM 0.3005)和 UCF101(FVD 410.0)上取得具有竞争力或更优的分数。
- 人类评估偏好 VideoFactory 在视频质量和文本-视频相关性方面超过若干领先方法。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。