[논문 리뷰] SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction
SEINE은 장면 사이의 매끄러운 전환을 생성하고 자기회귀 예측을 가능하게 하며, 텍스트와 입력 프레임에 조건부로 작동하는 랜덤 마스크 확산 메커니즘을 갖춘, 짧은 영상에서 긴 영상으로의 확산 모델(S2L)을 도입한다.
Recently video generation has achieved substantial progress with realistic results. Nevertheless, existing AI-generated videos are usually very short clips ("shot-level") depicting a single scene. To deliver a coherent long video ("story-level"), it is desirable to have creative transition and prediction effects across different clips. This paper presents a short-to-long video diffusion model, SEINE, that focuses on generative transition and prediction. The goal is to generate high-quality long videos with smooth and creative transitions between scenes and varying lengths of shot-level videos. Specifically, we propose a random-mask video diffusion model to automatically generate transitions based on textual descriptions. By providing the images of different scenes as inputs, combined with text-based control, our model generates transition videos that ensure coherence and visual quality. Furthermore, the model can be readily extended to various tasks such as image-to-video animation and autoregressive video prediction. To conduct a comprehensive evaluation of this new generative task, we propose three assessing criteria for smooth and creative transition: temporal consistency, semantic similarity, and video-text semantic alignment. Extensive experiments validate the effectiveness of our approach over existing methods for generative transition and prediction, enabling the creation of story-level long videos. Project page: https://vchitect.github.io/SEINE-project/ .
연구 동기 및 목표
- 스토리 수준의 영상 생성을 위한 생성적 전환 및 예측 문제를 정의한다.
- 장면 간 매끄러운 전환을 생성하는 짧은 영상에서 긴 영상으로의 확산 모델 SEINE을 개발한다.
- 랜덤 마스크 조건부 체계를 사용하여 자기회귀 방식의 긴 영상 예측 및 이미지-에서-비디오 애니메이션을 가능하게 한다.
제안 방법
- 초기화를 위해 사전 학습된 LaVie 기반 텍스트-투-비디오 확산 프레임워크를 기반으로 한다.
- 프레임을 선택적으로 노출하고 텍스트 및 잠재 프레임으로 모델을 조건화하기 위한 랜덤 마스크 입력 계층을 도입한다.
- 캡션과 보이는 프레임 잠재에 이중 조건화를 위한 p_theta(z0|c, z0~)를 형식화한다.
- 마스킹된 조건 입력을 통해 손상된 잠재에 대해 잡음 ϵ_theta를 예측하는 잠재 확산으로 학습한다.
- 시간적 일관성, 의미적 유사성 및 영상-텍스트 정렬을 강조하는 전이 목표를 정의하고 최적화한다.
- 마지막 프레임과 마스크를 사용한 자기회귀 디코딩으로 시퀀스를 확장하여 긴 영상 생성을 허용한다.
실험 결과
연구 질문
- RQ1두 장면 간의 전이가 시간적 일관성과 의미적으로 매끄럽게 생성되도록 하려면 어떻게 해야 하는가?
- RQ2확산 기반 프레임워크가 텍스트 설명에 조건화된 제어 가능하고 다양한 전이를 생성할 수 있는가?
- RQ3시간적 일관성, 의미적 유사성, 영상-텍스트 정합성과 함께 전이 및 긴 영상 예측을 얼마나 잘 평가할 수 있는가?
- RQ4SEINE의 이미지-에서-비디오 애니메이션 및 자기회귀 긴 영상 예측 능력은 어느 정도인가?
주요 결과
- SEINE은 텍스트, 장면, 프레임에 대한 CLIPSIM 지표에서 모핑, VQGAN 기반, SD 기반 전이 기반선보다 우수하다.
- 인간 평가자들은 대부분의 비교에서 SEINE이 생성한 전이를 기준선보다 선호했다.
- 모델은 다양한 전이 결과를 달성하고 카메라 모션 프롬프트를 통한 텍스트 제어 가능한 전이를 허용한다.
- SEINE은 시각적 품질과 의미적 일관성을 유지하며 자기회귀 예측으로 긴 영상을 생성할 수 있다.
- 이 방법은 이미지-에서-비디오 애니메이션을 지원하며 전문 비디오 생성 시스템과도 경쟁력을 유지한다.
- 질적 결과는 베이스라인에 비해 더 매끄러운 전이와 더 일관된 긴 시퀀스를 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.