QUICK REVIEW

[논문 리뷰] Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models

Wen Wang, Jiang, Yan|arXiv (Cornell University)|2023. 03. 30.

Generative Adversarial Networks and Image Synthesis인용 수 23

한 줄 요약

학습 없는 방법(vid2vid-zero)이 사전 학습된 이미지 확산 모델을 null-text inversion, spatial-temporal attention, 및 cross-frame regularization으로 재사용하여 비디오를 편집하고, 비디오 특화 학습 없이 텍스트 정렬된 시간적으로 일관된 편집을 달성합니다.

ABSTRACT

Large-scale text-to-image diffusion models achieve unprecedented success in image generation and editing. However, how to extend such success to video editing is unclear. Recent initial attempts at video editing require significant text-to-video data and computation resources for training, which is often not accessible. In this work, we propose vid2vid-zero, a simple yet effective method for zero-shot video editing. Our vid2vid-zero leverages off-the-shelf image diffusion models, and doesn't require training on any video. At the core of our method is a null-text inversion module for text-to-video alignment, a cross-frame modeling module for temporal consistency, and a spatial regularization module for fidelity to the original video. Without any training, we leverage the dynamic nature of the attention mechanism to enable bi-directional temporal modeling at test time. Experiments and analyses show promising results in editing attributes, subjects, places, etc., in real-world videos. Code is made available at \url{https://github.com/baaivision/vid2vid-zero}.

연구 동기 및 목표

대규모 텍스트-비디오 데이터셋이나 비디오 특화 학습 없이 제로샷 비디오 편집을 동기화합니다.
프롬프트에 맞춘 텍스트 기반 편집이 원본 비디오에 대한 충실성을 보존하면서도 프롬프트에 맞춰 정렬되도록 합니다.
사전 학습된 이미지 확산 모델을 활용하여 시간적 일관성을 가지고 비디오 편집을 수행합니다.
훈련 없이 텍스트-비디오 정합성, 충실도, 품질의 균형을 맞추는 메커니즘을 탐구합니다.

제안 방법

DDIM inversion을 사용하여 비디오 프레임을 잠재 공간으로 매핑합니다.
null-text optimization을 적용하여 역추적 결과를 소스 프롬프트와 정렬합니다.
ST-Attn(스페이셜-템포럴 어텐션)을 도입하여 프레임 간 양방향 시간 모델링을 가능하게 합니다.
입력 비디오에 대한 충실도를 보존하기 위해 크로스 어텐션 맵을 주입하여 공간 정규화를 도입합니다.
재학습 없이 테스트 시점의 시간 모델링이 가능하도록 self-attention을 cross-frame attention으로 교체합니다.
비디오 추론을 위해 2D 확산 블록을 3D로 확장하고 프레임 간 가중치를 공유합니다.

실험 결과

연구 질문

RQ1비디오 훈련 없이도 사전 학습된 이미지 확산 모델만으로 제로샷 비디오 편집이 가능할까?
RQ2이미지 확산 모델을 사용하여 비디오의 각 프레임을 편집할 때 시간적 일관성을 어떻게 보장할 수 있을까?
RQ3역추적, 어텐션, 정규화의 어떤 조합이 충실하고 프롬프트에 정렬된 편집 비디오를 만들어낼까?
RQ4테스트 시점의 양방향 시간 모델링이 편집 품질과 시간적 일관성에 어떤 영향을 미칠까?

주요 결과

vid2vid-zero는 제로샷 설정에서 원본 비디오에 대한 충실도를 유지하면서 텍스트 정렬된 편집을 달성합니다.
Dense spatial-temporal attention은 양방향 시간 모델링을 가능하게 하고 프레임 단위 편집보다 시간적 일관성을 향상시킵니다.
Null-text optimization은 역추적된 잠재 궤적을 소스 프롬프트와 정렬하는 데 도움을 주어 재구성 충실도를 향상시킵니다.
Spatial regularization via cross-attention maps는 콘텐츠 충실도를 보존하고 편집을 프롬프트 영역으로 유도합니다.
Ablation 연구는 시간 모델링, 공간 가이드, 또는 null-text inversion을 제거하면 편집 품질과 일관성이 저하된다는 것을 보여줍니다.
본 방법은 주관적 품질 및 프레임 일관성 지표에서 Tune-A-Video 및 Plug-and-Play에 비해 우수한 편입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.