Skip to main content
QUICK REVIEW

[논문 리뷰] SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction

Xinyuan Chen, Yaohui Wang|arXiv (Cornell University)|2023. 10. 31.
Generative Adversarial Networks and Image Synthesis인용 수 12
한 줄 요약

SEINE은 장면 사이의 매끄러운 전환을 생성하고 자기회귀 예측을 가능하게 하며, 텍스트와 입력 프레임에 조건부로 작동하는 랜덤 마스크 확산 메커니즘을 갖춘, 짧은 영상에서 긴 영상으로의 확산 모델(S2L)을 도입한다.

ABSTRACT

Recently video generation has achieved substantial progress with realistic results. Nevertheless, existing AI-generated videos are usually very short clips ("shot-level") depicting a single scene. To deliver a coherent long video ("story-level"), it is desirable to have creative transition and prediction effects across different clips. This paper presents a short-to-long video diffusion model, SEINE, that focuses on generative transition and prediction. The goal is to generate high-quality long videos with smooth and creative transitions between scenes and varying lengths of shot-level videos. Specifically, we propose a random-mask video diffusion model to automatically generate transitions based on textual descriptions. By providing the images of different scenes as inputs, combined with text-based control, our model generates transition videos that ensure coherence and visual quality. Furthermore, the model can be readily extended to various tasks such as image-to-video animation and autoregressive video prediction. To conduct a comprehensive evaluation of this new generative task, we propose three assessing criteria for smooth and creative transition: temporal consistency, semantic similarity, and video-text semantic alignment. Extensive experiments validate the effectiveness of our approach over existing methods for generative transition and prediction, enabling the creation of story-level long videos. Project page: https://vchitect.github.io/SEINE-project/ .

연구 동기 및 목표

  • 스토리 수준의 영상 생성을 위한 생성적 전환 및 예측 문제를 정의한다.
  • 장면 간 매끄러운 전환을 생성하는 짧은 영상에서 긴 영상으로의 확산 모델 SEINE을 개발한다.
  • 랜덤 마스크 조건부 체계를 사용하여 자기회귀 방식의 긴 영상 예측 및 이미지-에서-비디오 애니메이션을 가능하게 한다.

제안 방법

  • 초기화를 위해 사전 학습된 LaVie 기반 텍스트-투-비디오 확산 프레임워크를 기반으로 한다.
  • 프레임을 선택적으로 노출하고 텍스트 및 잠재 프레임으로 모델을 조건화하기 위한 랜덤 마스크 입력 계층을 도입한다.
  • 캡션과 보이는 프레임 잠재에 이중 조건화를 위한 p_theta(z0|c, z0~)를 형식화한다.
  • 마스킹된 조건 입력을 통해 손상된 잠재에 대해 잡음 ϵ_theta를 예측하는 잠재 확산으로 학습한다.
  • 시간적 일관성, 의미적 유사성 및 영상-텍스트 정렬을 강조하는 전이 목표를 정의하고 최적화한다.
  • 마지막 프레임과 마스크를 사용한 자기회귀 디코딩으로 시퀀스를 확장하여 긴 영상 생성을 허용한다.

실험 결과

연구 질문

  • RQ1두 장면 간의 전이가 시간적 일관성과 의미적으로 매끄럽게 생성되도록 하려면 어떻게 해야 하는가?
  • RQ2확산 기반 프레임워크가 텍스트 설명에 조건화된 제어 가능하고 다양한 전이를 생성할 수 있는가?
  • RQ3시간적 일관성, 의미적 유사성, 영상-텍스트 정합성과 함께 전이 및 긴 영상 예측을 얼마나 잘 평가할 수 있는가?
  • RQ4SEINE의 이미지-에서-비디오 애니메이션 및 자기회귀 긴 영상 예측 능력은 어느 정도인가?

주요 결과

  • SEINE은 텍스트, 장면, 프레임에 대한 CLIPSIM 지표에서 모핑, VQGAN 기반, SD 기반 전이 기반선보다 우수하다.
  • 인간 평가자들은 대부분의 비교에서 SEINE이 생성한 전이를 기준선보다 선호했다.
  • 모델은 다양한 전이 결과를 달성하고 카메라 모션 프롬프트를 통한 텍스트 제어 가능한 전이를 허용한다.
  • SEINE은 시각적 품질과 의미적 일관성을 유지하며 자기회귀 예측으로 긴 영상을 생성할 수 있다.
  • 이 방법은 이미지-에서-비디오 애니메이션을 지원하며 전문 비디오 생성 시스템과도 경쟁력을 유지한다.
  • 질적 결과는 베이스라인에 비해 더 매끄러운 전이와 더 일관된 긴 시퀀스를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.