Skip to main content
QUICK REVIEW

[논문 리뷰] SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

Chen, Guibin, Lin, Dixuan|arXiv (Cornell University)|2026. 02. 25.
Generative Adversarial Networks and Image Synthesis인용 수 0
한 줄 요약

SkyReels-V4는 다중 모달 프롬프트로 비디오와 오디오를 공동 생성하는 이중 스트림 다중 모달 디퓨전 트랜스포머이며, 시네마틱 해상도와 지속 시간에서 하나의 프레임워크로 통합된 인페인팅/편집을 제공합니다.

ABSTRACT

SkyReels V4 is a unified multi modal video foundation model for joint video audio generation, inpainting, and editing. The model adopts a dual stream Multimodal Diffusion Transformer (MMDiT) architecture, where one branch synthesizes video and the other generates temporally aligned audio, while sharing a powerful text encoder based on the Multimodal Large Language Models (MLLM). SkyReels V4 accepts rich multi modal instructions, including text, images, video clips, masks, and audio references. By combining the MLLMs multi modal instruction following capability with in context learning in the video branch MMDiT, the model can inject fine grained visual guidance under complex conditioning, while the audio branch MMDiT simultaneously leverages audio references to guide sound generation. On the video side, we adopt a channel concatenation formulation that unifies a wide range of inpainting style tasks, such as image to video, video extension, and video editing under a single interface, and naturally extends to vision referenced inpainting and editing via multi modal prompts. SkyReels V4 supports up to 1080p resolution, 32 FPS, and 15 second duration, enabling high fidelity, multi shot, cinema level video generation with synchronized audio. To make such high resolution, long-duration generation computationally feasible, we introduce an efficiency strategy: Joint generation of low resolution full sequences and high-resolution keyframes, followed by dedicated super-resolution and frame interpolation models. To our knowledge, SkyReels V4 is the first video foundation model that simultaneously supports multi-modal input, joint video audio generation, and a unified treatment of generation, inpainting, and editing, while maintaining strong efficiency and quality at cinematic resolutions and durations.

연구 동기 및 목표

  • 텍스트, 이미지, 비디오 클립, 마스크, 및 오디오 참조에 조건화된 비디오와 오디오를 함께 생성하는 통합 기반 모델을 발전시키다.
  • 다중 모달 입력으로 구동되는 단일 아키텍처에서 포괄적 인페인팅 및 편집을 가능하게 한다.
  • 공동 저해상도/고해상도 키프레임 생성 및 초해상화를 통한 계산 효율로 시네마틱 규모의 비디오 생성(1080p, 32 FPS, 15초)을 달성한다.
  • 시각 및 청각 조건화를 조화시키기 위해 공유 다중 모달 언어 모델 백본을 통해 다중 모달 지시 추적을 통합한다.

제안 방법

  • 하나의 분기가 비디오를, 다른 분기가 오디오를 모델링하는 이중 스트림 MMDiT를 제안하고, 다중 모달 지시 이행을 위해 공통으로 고정된 MLLM 텍스트 인코더를 공유한다.
  • 비디오 분기에 채널 연결 기반 인페인팅 프레임워크를 사용하여 이미지-투-비디오, 비디오 확장, 편집 및 시각 참조 인페인팅을 조건 생성의 특수한 경우로 표현한다.
  • 양방향 오디오-비디오 크로스 어텐션과 교차 모달 RoPE 스케일링을 도입하여 모달 간 시간적 동태를 맞춘다.
  • 비주얼 및 오디오 참조를 포함하는 인-컨텍스트 학습 메커니즘을 연결하고, 참조 비주얼을 비디오 자체 어텐션에 입력하고 컨디셔닝 토큰에 오프셋 3D RoPE를 사용한다.
  • 텍스트, 이미지, 비디오 클립, 마스크 및 오디오 참조를 포함한 다중 모달 입력에 조건화된 비디오와 오디오의 공동 생성을 위한 플로우 매칭 목적함수로 학습한다.
  • 저해상도 기본 생성에서 고해상도 1080p 출력을 얻기 위한 공동 비디오 초해상도 및 프레임 보간을 위한 Refiner 모듈을 구현하고, 효율성을 위한 Video Sparse Attention(VSA)의 도움을 받는다.
Figure 1: Overview of the proposed method.
Figure 1: Overview of the proposed method.

실험 결과

연구 질문

  • RQ1단일 아키텍처가 다중 모달 프롬프트로 조건화된 비디오와 동기화된 오디오를 어떻게 함께 생성할 수 있는가?
  • RQ2비디오 인페인팅, 편집 및 생성을 채널 연결 조건화 프레임워크 아래에서 통합할 수 있는가?
  • RQ3동기화된 오디오를 갖춘 1080p, 32 FPS, 15초 다샷 비디오 생성을 가능하게 하는 효율성 전략은 무엇인가?
  • RQ4공유된 MLLM 백본이 텍스트, 이미지, 비디오 및 오디오 입력에 대한 지시 이행 및 다중 모달 정렬을 개선하는가?
  • RQ5다중 모달 조건 하에서 시각 참조 생성 및 편집 작업에서 모델의 성능은 어떠한가?

주요 결과

  • SkyReels-V4는 Artificial Analysis Arena 벤치마크에서 최신 기술 수준의 결과를 달성한다.
  • 인간 평가에 따르면 SkyReels-VABench가 지시 이행, 모션 품질, 복합 다샷 스토리텔링에서 독점 시스템에 비해 현저한 향상을 보인다.
  • 모델은 다중 모달 조건 하에서 참조-비디오, 모션-비디오, 비디오 편집 작업을 강력하게 처리한다.
  • 통합 채널 연결 인페인팅 프레임워크가 하나의 아키텍처 내에서 이미지-투-비디오, 비디오 확장, 편집 및 시각 참조 인페인팅을 가능하게 한다.
  • 저해상도 전체 시퀀스와 고해상도 키프레임의 결합 및 후처리(초해상도 및 보간)를 포함한 효율성 전략은 실용적인 컴퓨트 예산 내에서 시네마틱 품질의 생성이 가능하게 한다.
Figure 2: The pipeline of the video super-resolution and frame interpolation method. F denotes the output latent of our base model. KF demotes the key frames latent of our base model.
Figure 2: The pipeline of the video super-resolution and frame interpolation method. F denotes the output latent of our base model. KF demotes the key frames latent of our base model.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.