[논문 리뷰] Structure and Content-Guided Video Synthesis with Diffusion Models
논문은 입력 구조를 보존하면서 텍스트나 이미지 프롬프트에 따라 비디오를 편집하는 구조 및 콘텐츠 가이드된 잠재 비디오 확산 모델을 제시하며, 공동 이미지-비디오 학습, 깊이 기반 구조, 및 시간 일관성을 제어하는 새로운 가이던스 방법을 사용합니다.
Text-guided generative diffusion models unlock powerful image creation and editing tools. While these have been extended to video generation, current approaches that edit the content of existing footage while retaining structure require expensive re-training for every input or rely on error-prone propagation of image edits across frames. In this work, we present a structure and content-guided video diffusion model that edits videos based on visual or textual descriptions of the desired output. Conflicts between user-provided content edits and structure representations occur due to insufficient disentanglement between the two aspects. As a solution, we show that training on monocular depth estimates with varying levels of detail provides control over structure and content fidelity. Our model is trained jointly on images and videos which also exposes explicit control of temporal consistency through a novel guidance method. Our experiments demonstrate a wide variety of successes; fine-grained control over output characteristics, customization based on a few reference images, and a strong user preference towards results by our model.
연구 동기 및 목표
- 콘텐츠를 편집하면서 구조를 보존하는 제어 가능한 비디오 확산 모델을 개발한다.
- 개별 비디오 학습 없이 텍스트 및 이미지 가이드를 통한 비디오 편집을 가능하게 한다.
- 시간적, 콘텐츠 및 구조 충실도에 대한 명시적 제어를 달성한다.
- 충실도를 조절하기 위해 다양한 세부 수준의 깊이 기반 구조 표현으로 학습을 탐구한다.
- 편집에 대한 사용자 맞춤화와 선호를 입증한다.
제안 방법
- 사전 학습된 이미지 모델에 시간 차원을 추가하여 시-공간 도메인으로 잠재 확산 모델을 확장한다.
- 구조를 단안 깊이 추정으로, 콘텐츠를 CLIP 기반 임베딩으로 표현한다.
- 추론 시 시간 제어를 가능하게 하기 위해 이미지와 비디오에 대해 공동으로 학습하여 시간 가이던스 스케일을 도입한다.
- denoising 과정에서 구조 s(연결(concatenation)으로)와 콘텐츠 c(크로스 어텐션으로)로 모델을 조건화한다.
- 학습 및 추론 동안 구조 충실도를 제어하기 위해 서로 다른 흐림 정도를 가진 깊이 맵 t_s를 사용한다.
- 프롬프트 충실도와 시간 일관성을 조정하기 위해 콘텐츠 및 시간 가이던스 스케일을 사용한 분류기 프리(diffusion) 가이던스를 적용한다.
실험 결과
연구 질문
- RQ1확산 모델이 입력 비디오의 원래 구조를 보존하면서 비디오 콘텐츠를 어떻게 편집할 수 있는가?
- RQ2이미지와 비디오를 함께 학습시키면 추론 시 명시적 시간 일관성 제어가 가능한가?
- RQ3깊이 기반 구조 표현과 CLIP 기반 콘텐츠 표현을 비디오 확산 모델에서 효과적으로 조건화하는 방법은 무엇인가?
- RQ4샘플링 가이던스와 구조 세부 수준을 통해 편집 충실도와 시간적 매끄러움을 어느 정도까지 제어할 수 있는가?
주요 결과
- 모델은 추론 시 시간적 일관성, 구조 충실도 및 콘텐츠 편집에 대해 세밀한 제어를 가능하게 한다.
- 이미지 전용 접근법보다 이미지와 비디오 데이터를 공동 학습하면 시간적 일관성이 향상된다.
- 다양한 세부 수준(t_s)을 가진 깊이 기반 구조 표현은 편집에서 얼마나 구조를 보존할지 제어할 수 있게 한다.
- 콘텐츠는 텍스트 프롬프트나 CLIP 임베딩을 통해 지시될 수 있으며 텍스트를 이미지 임베딩으로 변환하는 학습된 사전이 있다.
- 샘플링 중 새로운 시간 가이던스 메커니즘(ω_t)은 프롬프트 준수성을 유지하면서 프레임 간 응집력을 개선한다.
- 사용자 연구에서 이 접근법이 텍스트 및 이미지 가이드를 통한 비디오 편집에서 여러 베이스라인보다 선호되는 것으로 나타났다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.