[논문 리뷰] VideoStudio: Generating Consistent-Content and Multi-Scene Videos
VideoDrafter는 LLM-주도 다중 장면 스크립트를 사용하여 확산 기반 비디오 생성을 안내하고, 엔티티 참조 이미지와 두 개의 확산 모델을 통해 장면과 비디오 생성을 수행하여 콘텐츠-일관된 다중 장면 비디오를 생성하고, SOTA baselines를 능가합니다.
The recent innovations and breakthroughs in diffusion models have significantly expanded the possibilities of generating high-quality videos for the given prompts. Most existing works tackle the single-scene scenario with only one video event occurring in a single background. Extending to generate multi-scene videos nevertheless is not trivial and necessitates to nicely manage the logic in between while preserving the consistent visual appearance of key content across video scenes. In this paper, we propose a novel framework, namely VideoStudio, for consistent-content and multi-scene video generation. Technically, VideoStudio leverages Large Language Models (LLM) to convert the input prompt into comprehensive multi-scene script that benefits from the logical knowledge learnt by LLM. The script for each scene includes a prompt describing the event, the foreground/background entities, as well as camera movement. VideoStudio identifies the common entities throughout the script and asks LLM to detail each entity. The resultant entity description is then fed into a text-to-image model to generate a reference image for each entity. Finally, VideoStudio outputs a multi-scene video by generating each scene video via a diffusion process that takes the reference images, the descriptive prompt of the event and camera movement into account. The diffusion model incorporates the reference images as the condition and alignment to strengthen the content consistency of multi-scene videos. Extensive experiments demonstrate that VideoStudio outperforms the SOTA video generation models in terms of visual quality, content consistency, and user preference. Source code is available at \url{https://github.com/FuchenUSTC/VideoStudio}.
연구 동기 및 목표
- 프롬프트를 다중 장면 비디오 스크립트로 구조화하기 위해 LLM을 활용하여 장면 간 논리를 포착합니다.
- 장면 간 일관된 외모를 유지하기 위해 공통 엔티티를 식별하고 활용합니다.
- 장면을 연결하고 비디오 생성을 안내하기 위해 엔티티 참조 이미지를 per-entity로 생성합니다.
- 프롬프트, 참조 이미지, 카메라 이동을 조건으로 하는 확산 모델로 장면 비디오를 생성합니다.
- 최신 방법과 비교하여 시각적 품질 및 콘텐츠 일관성이 우수함을 보여줍니다.
제안 방법
- 세 단계 프레임워크: (1) 프롬프트를 다중 장면 프롬프트로 분해하여 장면 프롬프트, 전경/배경, 카메라 이동으로 나누는 LLM(ChatGLM3-6B) 기반 다중 장면 스크립트 생성.
- (2) 공통 엔티티의 참조 이미지를 Stable Diffusion으로 생성하고 전경/배경 분리를 위해 U2-Net 세분화로 다듬어 엔티티 참조 이미지를 생성하는 엔티티 참조 이미지 생성.
- (3) 두 개의 확산 가지를 사용하는 비디오 장면 생성: VideoDrafter-Img는 이벤트 프롬프트 및 엔티티 참조를 조건으로 장면-참조 이미지를 생성하고; VideoDrafter-Vid는 장면-참조 이미지, 행동 어휘, 카메라 이동을 조건으로 클립을 생성하며, 카메라 모션을 반영하기 위해 시간적 주의와 프레임 워핑을 사용합니다.
실험 결과
연구 질문
- RQ1LLM이 생성한 다중 장면 스크립트가 장면 간 논리적 일관성을 어떻게 개선할 수 있는가?
- RQ2엔티티 수준의 참조 이미지가 다중 장면 비디오에서 장면 간 콘텐츠 일관성을 보장할 수 있는가?
- RQ3스크립트와 참조를 조건으로 하는 확산 기반의 장면 및 비디오 모델이 기존의 단일 장면 및 다중 장면 비디오 생성 방법보다 성능이 우수한가?
- RQ4시간 동적 특성 및 카메라 모션을 도입하는 것이 비디오 품질과 일관성에 어떤 영향을 미치는가?
주요 결과
- VideoDrafter가 여러 벤치마크에서 최첨단 모델에 비해 우수한 시각 품질과 콘텐츠 일관성을 달성합니다.
- 엔티티 참조 이미지를 도입하면 장면 간 일관성과 프롬프트와의 정합성이 향상됩니다.
- 두 단계 확산 접근 방식(장면-참조 이미지 생성 및 비디오 생성)은 장면 간 일관된 엔티티를 효과적으로 보존합니다.
- 사람 평가에서 LLM 주도 스크립팅 및 참조 이미지를 사용할 때 시각 품질, 논리적 응집성, 콘텐츠 일관성의 향상이 나타납니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.