QUICK REVIEW

[논문 리뷰] Text2LIVE: Text-Driven Layered Image and Video Editing

Omer Bar-Tal, Dolev Ofri-Amar|arXiv (Cornell University)|2022. 04. 05.

Generative Adversarial Networks and Image Synthesis인용 수 27

한 줄 요약

Text2LIVE는 입력 이미지나 비디오 위에 합성되는 편집 레이어(RGBA)를 생성하여 제로샷, 텍스트-가이드 로컬라이즈드 편집을 수행하도록 학습하며, 마스크나 사전 학습된 제너레이터 없이 내부 이미지-텍스트 데이터셋으로 학습되고, 신경 계층적 아틀라스를 통해 시간적으로 일관된 비디오 편집으로 확장됩니다.

ABSTRACT

We present a method for zero-shot, text-driven appearance manipulation in natural images and videos. Given an input image or video and a target text prompt, our goal is to edit the appearance of existing objects (e.g., object's texture) or augment the scene with visual effects (e.g., smoke, fire) in a semantically meaningful manner. We train a generator using an internal dataset of training examples, extracted from a single input (image or video and target text prompt), while leveraging an external pre-trained CLIP model to establish our losses. Rather than directly generating the edited output, our key idea is to generate an edit layer (color+opacity) that is composited over the original input. This allows us to constrain the generation process and maintain high fidelity to the original input via novel text-driven losses that are applied directly to the edit layer. Our method neither relies on a pre-trained generator nor requires user-provided edit masks. We demonstrate localized, semantic edits on high-resolution natural images and videos across a variety of objects and scenes.

연구 동기 및 목표

간단한 텍스트 프롬프트를 사용하여 실제 세계의 이미지와 비디오에 대해 의미론적이고 로컬라이즈된 외관 편집을 동기 부여하고 가능하게 한다.
입력 위에 합성되도록 RGBA 편집 레이어를 생성하는 계층형 편집 프레임워크를 개발하여 콘텐츠 충실도를 보존한다.
단일 입력과 CLIP 기반 손실을 활용한 내부 학습으로 사전 학습된 제너레이터 의존성을 피한다.
신경 계층적 아틀라스를 사용하여 영상으로 확장하고 시간적 일관성을 보장한다.
대상 개체와 장면 전반에 걸쳐 질감 변화 및 반투명 효과를 포함한 다양한 편집을 시연한다.

제안 방법

입력 레이어를 생성하는 제너레이터 Gθ를 도입하여 편집 레이어 E = {C, α} (색상 C 및 불투명도 α)을 출력하고 이를 소스 I_s 위에 합성하여 I_o = α·C + (1−α)·I_s를 생성한다.
편집을 유도하기 위해 세 가지 CLIP 기반 손실을 사용: L_comp(최종 이미지가 대상 텍스트 T와 일치), L_screen(편집 레이어가 그린 스크린 감독을 위한 화면 기반 프롬프트 T_screen와 일치), L_structure(CLIP 특성 자기 유사성을 통해 콘텐츠 구조를 보존).
편집 범위를 제어하기 위해 희소성 정규화 L_reg를 적용하여 α를 희소하게 만든다.
텍스트 ROI 프롬프트 T_ROI에서 얻은 관련도 맵 R(I_s)으로 α를 부트스트랩하여 로컬화를 초기화하고, 학습 중에 점진적으로 조정한다.
단일 입력 이미지 (I_s)와 대상 텍스트 (T)를 증강하여 다양한 학습 쌍을 생성하는 내부 데이터셋에서 Gθ를 처음부터 학습시킨다.
신경 계층화 아틀라스(NLA)를 채택하여 비디오로 확장하고, 원자 레벨의 아틀라스 레이어 E_A를 편집하도록 제너레이터를 학습시키고 이를 고정 UV 매핑 M을 통해 프레임에 매핑하여 시간적 일관성을 보장한다.

실험 결과

연구 질문

RQ1마스크나 사전 학습된 제너레이터 없이도 실제 세계 이미지를 위한 텍스트 주도 로컬 편집을 생성할 수 있는가?
RQ2RGBA 편집 레이어를 생성하는 것이 직접 이미지 생성에 비해 CLIP-가이드 편집에 대해 더 나은 제어와 충실도를 제공하는가?
RQ3레이어드 아틀라스 표현을 사용하여 시간적 일관성을 갖춘 비디오로 이 방법을 확장할 수 있는가?
RQ4내부(단일 입력) 학습 및 텍스트 기반 손실이 원하고자 하는 영역과 의미로 편집을 제약하는 데 얼마나 효과적인가?

주요 결과

이 방법은 질감 변화 및 반투명 효과를 포함하여 다양한 객체와 장면에 걸친 의미론적이고 로컬화된 편집을 가능하게 한다.
편집 레이어(RGBA)는 전용 CLIP 기반 손실을 통해 로컬화 및 콘텐츠에 대한 정밀한 제어를 가능하게 하며 목표 프롬프트에 대한 충실도를 향상시킨다.
단일 입력에서의 내부 학습은 증강된 텍스트-이미지 쌍으로 외부 제너레이터나 마스크 없이도 고품질 편집을 산출한다.
신경 계층화 아틀라스(NLA)를 이용한 비디오 확장은 아틀라스 편집에서 프레임으로 매핑된 시간적으로 일관된 편집을 달성한다.
주관적 AMT 평가에서 이미지 및 비디오 작업 전반에 걸쳐 마스크 없이도 기준선 대비 경쟁력 있거나 더 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.