QUICK REVIEW

[논문 리뷰] Edit-A-Video: Single Video Editing with Object-Aware Consistency

Chaehun Shin, Heeseung Kim|arXiv (Cornell University)|2023. 03. 14.

Generative Adversarial Networks and Image Synthesis인용 수 12

한 줄 요약

Edit-A-Video는 텍스트 프롬프트에 의해 단일 비디오를 가이드하기 위해 2D 확산모델을 3D로 확장하고, 소스 비디오를 역전시키고, 어텐션 맵을 주입하며, 배경 일관성을 보존하기 위한 새로운 시간적 일관 블렌딩을 사용한다.

ABSTRACT

Despite the fact that text-to-video (TTV) model has recently achieved remarkable success, there have been few approaches on TTV for its extension to video editing. Motivated by approaches on TTV models adapting from diffusion-based text-to-image (TTI) models, we suggest the video editing framework given only a pretrained TTI model and a single pair, which we term Edit-A-Video. The framework consists of two stages: (1) inflating the 2D model into the 3D model by appending temporal modules and tuning on the source video (2) inverting the source video into the noise and editing with target text prompt and attention map injection. Each stage enables the temporal modeling and preservation of semantic attributes of the source video. One of the key challenges for video editing include a background inconsistency problem, where the regions not included for the edit suffer from undesirable and inconsistent temporal alterations. To mitigate this issue, we also introduce a novel mask blending method, termed as sparse-causal blending (SC Blending). We improve previous mask blending methods to reflect the temporal consistency so that the area where the editing is applied exhibits smooth transition while also achieving spatio-temporal consistency of the unedited regions. We present extensive experimental results over various types of text and videos, and demonstrate the superiority of the proposed method compared to baselines in terms of background consistency, text alignment, and video editing quality.

연구 동기 및 목표

단 하나의 <text, video> 쌍과 함께 사전 학습된 text-to-image 모델만을 사용하여 텍스트-가이드 비디오 편집을 고무한다.
2D 모델을 3D로 확장하여 시간적 모델링을 수행하고 역전 및 어텐션 맵 주입을 통해 편집을 수행하는 두 단계 프레임워크를 개발한다.
배경 불일치를 시간에 따라 보존하도록 하는 새로운 TC Blending으로 시간에 걸쳐 편집되지 않은 영역을 보존한다.
시간적 일관성과 콘텐츠 보존을 달성하는 데 있어 다양한 어텐션 모듈의 역할을 분석한다.]
method: ["사전 학습된 2D TTI 모델을 시간 모듈을 추가하고 2D 컨볼루션과 self-attention을 그 시간적 대응으로 변환하여 3D TTV 모델로 확장한다.","DDIM 역전을 통해 소스 비디오를 가우시안 노이즈로 역전시키고 편집 중에 소스를 재구성할 수 있도록 null-text 임베딩을 최적화한다.","대상 텍스트 생성 과정에 소스 어텐션 맵을 주입하여 편집된 콘텐츠가 소스의 공간적 레이아웃과 일치하도록 편집한다.","시간 일관 블렌딩(TC Blending)을 도입하여 편집 영역을 대상으로 하면서 시간에 걸쳐 배경을 보존하는 프레임-일관 혼합 마스크를 생성한다.","마스크 구성을 위해 현재 프레임 특징과 첫 프레임 및 이전 프레임을 연관시키는 희소 시공간 어텐션(ST-Attn)을 계산한다.","교차 어텐션, 시간 어텐션 및 ST-Attn의 역할이 시간적 일관성과 편집 충실도를 유지하는 데 기여하는 분석을 제공한다."]
research_questions: ["단일 비디오에 대해 튜닝된 비디오 모델로 확장된 텍스트-투-이미지 확산 모델이 대상 텍스트에 의해 구동되는 시간적 일관 편집을 생성할 수 있는가?","어텐션 맵 주입이 프레임 전반의 비편집 영역을 보존하면서 대상 객체의 충실한 편집을 가능하게 하는가?","TC Blending이 프레임별로 선명하면서도 시간적으로 일관된 마스크를 생성해 편집된 비디오의 배경 불일치를 줄일 수 있는가?","교차 어텐션(Cross-Attention), 시간 어텐션(Temporal Attention), ST-Attn의 편집 품질과 시간적 일관성에 대한 기여는 무엇인가?"]
key_findings: ["Edit-A-Video는 배경 보존, 텍스트 정렬, 비디오 현실감 면에서 기준값 대비 우수한 사용자 선호 점수를 얻는다.","정량적 결과는 Edit-A-Video가 3.80±0.10 User Score (O), Text Alignment 30.2688, LPIPS 0.2625, PSNR 20.0992로 Tune-A-Video, SDEdit, Video-P2P를 대부분의 지표에서 능가함을 보여준다.","TC Blending은 대상 객체 마스킹과 배경 보존을 개선하며, 제거 버전보다 더 높은 User Score와 더 나은 LPIPS/PSNR 및 Mask IoU를 보인다.","특성 제거 연구는 TC Blending이 더 선명하고 시간적으로 일관된 마스크를 생성하며 배경 불일치를 감소시킴을 입증한다.","Cross-Attention 주입 지속시간(0.2)은 공간 배치를 보존하면서 대상 의미를 가능하게 하고; Temporal Attention(0.8)은 견고한 시간적 모델링을 보여주며; ST-Attn(0.5)은 동적 동작과 편집 초점을 균형 있게 조절한다."]
table_headers: ["Method","User Score (O)","Text Alignment","LPIPS","PSNR"]
table_rows: [["Edit-A-Video (Ours)","3.80±0.10","30.2688","0.2625","20.0992"],["Tune-A-Video","3.46±0.10","30.0514","0.4482","14.5753"],["SDEdit","3.40±0.10","28.4203","0.2711","20.4767"],["Video-P2P","3.66±0.10","30.0842","0.3047","17.5760"]]}} )? The trailing characters are extraneous; final answer should be valid JSON-like structure without extraneous text. Ensure proper JSON syntax. The actual output should be the translated GeneratedReview object. If your interface requires pure JSON, provide exactly that. If not, provide the object as shown above without commentary.} {

제안 방법

사전 학습된 2D TTI 모델을 시간 모듈을 추가하고 2D 컨볼루션과 self-attention을 그 시간적 대응으로 변환하여 3D TTV 모델로 확장한다.
DDIM 역전을 통해 소스 비디오를 가우시안 노이즈로 역전시키고 편집 중에 소스를 재구성할 수 있도록 null-text 임베딩을 최적화한다.
대상 텍스트 생성 과정에 소스 어텐션 맵을 주입하여 편집된 콘텐츠가 소스의 공간적 레이아웃과 일치하도록 편집한다.
시간 일관 블렌딩(TC Blending)을 도입하여 편집 영역을 대상으로 하면서 시간에 걸쳐 배경을 보존하는 프레임-일관 혼합 마스크를 생성한다.
마스크 구성을 위해 현재 프레임 특징과 첫 프레임 및 이전 프레임을 연관시키는 희소 시공간 어텐션(ST-Attn)을 계산한다.
교차 어텐션, 시간 어텐션 및 ST-Attn의 역할이 시간적 일관성과 편집 충실도를 유지하는 데 기여하는 분석을 제공한다.

실험 결과

연구 질문

RQ1단일 비디오에 대해 튜닝된 비디오 모델로 확장된 텍스트-투-이미지 확산 모델이 대상 텍스트에 의해 구동되는 시간적 일관 편집을 생성할 수 있는가?
RQ2어텐션 맵 주입이 프레임 전반의 비편집 영역을 보존하면서 대상 객체의 충실한 편집을 가능하게 하는가?
RQ3TC Blending이 프레임별로 선명하면서도 시간적으로 일관된 마스크를 생성해 편집된 비디오의 배경 불일치를 줄일 수 있는가?
RQ4교차 어텐션(Cross-Attention), 시간 어텐션(Temporal Attention), ST-Attn의 편집 품질과 시간적 일관성에 대한 기여는 무엇인가?

주요 결과

Method	User Score (O)	Text Alignment	LPIPS	PSNR
Edit-A-Video (Ours)	3.80±0.10	30.2688	0.2625	20.0992
Tune-A-Video	3.46±0.10	30.0514	0.4482	14.5753
SDEdit	3.40±0.10	28.4203	0.2711	20.4767
Video-P2P	3.66±0.10	30.0842	0.3047	17.5760

Edit-A-Video는 배경 보존, 텍스트 정렬, 비디오 현실감 면에서 기준값 대비 우수한 사용자 선호 점수를 얻는다.
정량적 결과는 Edit-A-Video가 3.80±0.10 User Score (O), Text Alignment 30.2688, LPIPS 0.2625, PSNR 20.0992로 Tune-A-Video, SDEdit, Video-P2P를 대부분의 지표에서 능가함을 보여준다.
TC Blending은 대상 객체 마스킹과 배경 보존을 개선하며, 제거 버전보다 더 높은 User Score와 더 나은 LPIPS/PSNR 및 Mask IoU를 보인다.
특성 제거 연구는 TC Blending이 더 선명하고 시간적으로 일관된 마스크를 생성하며 배경 불일치를 감소시킴을 입증한다.
Cross-Attention 주입 지속시간(0.2)은 공간 배치를 보존하면서 대상 의미를 가능하게 하고; Temporal Attention(0.8)은 견고한 시간적 모델링을 보여주며; ST-Attn(0.5)은 동적 동작과 편집 초점을 균형 있게 조절한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.