[论文解读] VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning
VideoDirectorGPT 使用基于LLM的规划阶段来创建多场景视频计划,并使用布局引导的视频生成器 Layout2Vid 从单一提示中产生时序一致的长视频,通过仅更新参数的一小部分实现训练效率。
Recent text-to-video (T2V) generation methods have seen significant advancements. However, the majority of these works focus on producing short video clips of a single event (i.e., single-scene videos). Meanwhile, recent large language models (LLMs) have demonstrated their capability in generating layouts and programs to control downstream visual modules. This prompts an important question: can we leverage the knowledge embedded in these LLMs for temporally consistent long video generation? In this paper, we propose VideoDirectorGPT, a novel framework for consistent multi-scene video generation that uses the knowledge of LLMs for video content planning and grounded video generation. Specifically, given a single text prompt, we first ask our video planner LLM (GPT-4) to expand it into a 'video plan', which includes the scene descriptions, the entities with their respective layouts, the background for each scene, and consistency groupings of the entities. Next, guided by this video plan, our video generator, named Layout2Vid, has explicit control over spatial layouts and can maintain temporal consistency of entities across multiple scenes, while being trained only with image-level annotations. Our experiments demonstrate that our proposed VideoDirectorGPT framework substantially improves layout and movement control in both single- and multi-scene video generation and can generate multi-scene videos with consistency, while achieving competitive performance with SOTAs in open-domain single-scene T2V generation. Detailed ablation studies, including dynamic adjustment of layout control strength with an LLM and video generation with user-provided images, confirm the effectiveness of each component of our framework and its future potential.
研究动机与目标
- 利用LLMs从单一文本提示中规划多场景视频内容。
- 在T2V生成中实现显式的空间布局控制和跨场景时序一致性。
- 仅使用图像级标注,Efficient地训练布局引导的视频生成器。
- demostr demonstrate 提高布局精度和运动,同时保持开放域质量。
- 为动态布局引导强度和用户提供的图像整合提供路径。
提出的方法
- 两阶段管线:(i) 使用GPT-4进行视频规划,生成场景描述、带有2D布局的实体、背景和一致性分组;(ii) 以视频计划为引导的 Layout2Vid 进行具身化视频生成。
- 视频计划包含四个组成:多场景描述、带有2D边界框的实体、背景,以及跨场景的一致性分组。
- Layout2Vid 基于 ModelScopeT2V,在大部分参数冻结的情况下,仅训练 Guided 2D Attention(13% 的参数)以实现来自图像级标注的布局控制。
- 实体对齐使用联合的图像+文本嵌入以在场景之间保持身份,通过将 CLIP 的图像与文本特征与边界框傅里叶特征结合实现。
- 两阶段去噪:先通过 Guided 2D Attention 进行布局引导的步骤,然后进入标准步骤,alpha 控制布局引导去噪的比例。
- 训练效率:Layout2Vid 在64万张图像级布局标注上进行训练,针对8张A6000显卡的50k步优化。
实验结果
研究问题
- RQ1LLM生成的视频规划是否能在长视频生成中提升跨多个场景的一致性与控制?
- RQ2使用图像级标注训练的布局引导视频生成器在维持视觉质量的同时,是否能实现跨场景的时序一致性?
- RQ3布局引导强度的动态控制如何影响视频质量与布局保真度?
- RQ4能否将用户提供的示例图像整合到布局引导的视频生成中?
- RQ5联合图像+文本嵌入对跨场景保持实体身份有何影响?
主要发现
- VideoDirectorGPT 在单场景生成中相较强基线(ModelScopeT2V)在对象数量、空间关系与尺度方面实现了更高的布局控制。
- 该框架显著提升对象运动方向的准确性,展示出由LLM规划引导的更佳时序动态。
- 在开放域的MSR-VTT数据集上,VideoDirectorGPT 维持竞争力的视频质量与文本-视频对齐,同时增加了布局与多场景一致性能力。
- Layout2Vid 可以在仅使用图像级布局标注的情况下实现高效训练(仅更新13%的参数),同时仍保持视频生成质量。
- 同时使用图像与文本嵌入进行实体对齐比仅文本对齐在时序一致性方面表现更佳。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。