[论文解读] SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model
SkyReels-V4 是一个双流多模态扩散 Transformer,基于多模态提示共同生成视频与音频,并在统一框架内实现空洞填充/编辑,达到影视级分辨率与时长。
SkyReels V4 is a unified multi modal video foundation model for joint video audio generation, inpainting, and editing. The model adopts a dual stream Multimodal Diffusion Transformer (MMDiT) architecture, where one branch synthesizes video and the other generates temporally aligned audio, while sharing a powerful text encoder based on the Multimodal Large Language Models (MLLM). SkyReels V4 accepts rich multi modal instructions, including text, images, video clips, masks, and audio references. By combining the MLLMs multi modal instruction following capability with in context learning in the video branch MMDiT, the model can inject fine grained visual guidance under complex conditioning, while the audio branch MMDiT simultaneously leverages audio references to guide sound generation. On the video side, we adopt a channel concatenation formulation that unifies a wide range of inpainting style tasks, such as image to video, video extension, and video editing under a single interface, and naturally extends to vision referenced inpainting and editing via multi modal prompts. SkyReels V4 supports up to 1080p resolution, 32 FPS, and 15 second duration, enabling high fidelity, multi shot, cinema level video generation with synchronized audio. To make such high resolution, long-duration generation computationally feasible, we introduce an efficiency strategy: Joint generation of low resolution full sequences and high-resolution keyframes, followed by dedicated super-resolution and frame interpolation models. To our knowledge, SkyReels V4 is the first video foundation model that simultaneously supports multi-modal input, joint video audio generation, and a unified treatment of generation, inpainting, and editing, while maintaining strong efficiency and quality at cinematic resolutions and durations.
研究动机与目标
- 推进一个统一的基础模型,在文本、图像、视频片段、掩码和音频参考条件下,联合生成视频与音频。
- 在单一架构中实现基于多模态输入的全面空洞填充与编辑。
- 通过联合低分辨率/高分辨率关键帧生成与超分辨率实现高效计算,达到影视级视频生成(1080p,32 FPS,15s)。
- 通过共享的多模态语言模型骨干整合多模态指令跟随,以协调视觉与听觉条件。
提出的方法
- 提出一个 dual-stream MMDiT,其中一个分支建模视频,另一个分支建模音频,采用一个冻结的通用 MLLM 文本编码器以实现多模态指令跟随的共享。
- 在视频分支中使用通道拼接的填充框架来表达图像到视频、视频扩展、编辑以及基于视觉参考的填充等作为条件生成的特例。
- 结合双向音视频跨注意力和跨模态 RoPE 缩放,以对齐模态之间的时序动态。
- 通过向视频自注意力输入参考视觉并对 conditioning tokens 使用偏移的 3D RoPE,附加一个带有视觉与音频引用的上下文学习机制。
- 采用流对齐目标进行联合视频和音频生成的训练,条件包括文本、图像、视频片段、掩码和音频参考等多模态输入。
- 实现一个 Refiner 模块,用于联合视频超分辨率与帧插值,以从低分辨率基础生成高质量的1080p 输出,并通过 Video Sparse Attention(VSA)提高效率。

实验结果
研究问题
- RQ1一个单一架构如何在多模态提示条件下联合生成视频与同步音频?
- RQ2视频空洞填充、编辑和生成是否可以在通道拼接的条件框架下统一?
- RQ3哪些效率策略能够在同步音频的前提下实现1080p、32 FPS、15 秒多镜头视频生成?
- RQ4共享的 MLLM 骨干是否提升指令跟随与跨模态对齐(文本、图像、视频、音频输入)?
- RQ5模型在具备多模态条件的视觉参考生成与编辑任务中表现如何?
主要发现
- SkyReels-V4 在 Artificial Analysis Arena 基准上取得了最前沿的结果。
- 人工评测显示 SkyReels-VABench 相较于专有系统在指令跟随、运动质量和复杂多镜头故事讲述上有显著改进。
- 该模型在具备多模态条件下对.reference-to-video、motion-to-video 与视频编辑任务具备鲁棒处理能力。
- 统一的通道拼接填充框架使图像到视频、视频扩展、编辑以及基于视觉参考的填充在单一架构内得以实现。
- 一种将联合低分辨率全序列与高分辨率关键帧结合、再辅以后处理(超分辨率与插值)的效率策略,使影视级生成在可接受的计算预算内成为现实。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。