Skip to main content
QUICK REVIEW

[논문 리뷰] Text2LIVE: Text-Driven Layered Image and Video Editing

Omer Bar-Tal, Dolev Ofri-Amar|arXiv (Cornell University)|2022. 04. 05.
Generative Adversarial Networks and Image Synthesis인용 수 27
한 줄 요약

Text2LIVE는 입력 이미지나 비디오 위에 합성되는 편집 레이어(RGBA)를 생성하여 제로샷, 텍스트-가이드 로컬라이즈드 편집을 수행하도록 학습하며, 마스크나 사전 학습된 제너레이터 없이 내부 이미지-텍스트 데이터셋으로 학습되고, 신경 계층적 아틀라스를 통해 시간적으로 일관된 비디오 편집으로 확장됩니다.

ABSTRACT

We present a method for zero-shot, text-driven appearance manipulation in natural images and videos. Given an input image or video and a target text prompt, our goal is to edit the appearance of existing objects (e.g., object's texture) or augment the scene with visual effects (e.g., smoke, fire) in a semantically meaningful manner. We train a generator using an internal dataset of training examples, extracted from a single input (image or video and target text prompt), while leveraging an external pre-trained CLIP model to establish our losses. Rather than directly generating the edited output, our key idea is to generate an edit layer (color+opacity) that is composited over the original input. This allows us to constrain the generation process and maintain high fidelity to the original input via novel text-driven losses that are applied directly to the edit layer. Our method neither relies on a pre-trained generator nor requires user-provided edit masks. We demonstrate localized, semantic edits on high-resolution natural images and videos across a variety of objects and scenes.

연구 동기 및 목표

  • 간단한 텍스트 프롬프트를 사용하여 실제 세계의 이미지와 비디오에 대해 의미론적이고 로컬라이즈된 외관 편집을 동기 부여하고 가능하게 한다.
  • 입력 위에 합성되도록 RGBA 편집 레이어를 생성하는 계층형 편집 프레임워크를 개발하여 콘텐츠 충실도를 보존한다.
  • 단일 입력과 CLIP 기반 손실을 활용한 내부 학습으로 사전 학습된 제너레이터 의존성을 피한다.
  • 신경 계층적 아틀라스를 사용하여 영상으로 확장하고 시간적 일관성을 보장한다.
  • 대상 개체와 장면 전반에 걸쳐 질감 변화 및 반투명 효과를 포함한 다양한 편집을 시연한다.

제안 방법

  • 입력 레이어를 생성하는 제너레이터 Gθ를 도입하여 편집 레이어 E = {C, α} (색상 C 및 불투명도 α)을 출력하고 이를 소스 I_s 위에 합성하여 I_o = α·C + (1−α)·I_s를 생성한다.
  • 편집을 유도하기 위해 세 가지 CLIP 기반 손실을 사용: L_comp(최종 이미지가 대상 텍스트 T와 일치), L_screen(편집 레이어가 그린 스크린 감독을 위한 화면 기반 프롬프트 T_screen와 일치), L_structure(CLIP 특성 자기 유사성을 통해 콘텐츠 구조를 보존).
  • 편집 범위를 제어하기 위해 희소성 정규화 L_reg를 적용하여 α를 희소하게 만든다.
  • 텍스트 ROI 프롬프트 T_ROI에서 얻은 관련도 맵 R(I_s)으로 α를 부트스트랩하여 로컬화를 초기화하고, 학습 중에 점진적으로 조정한다.
  • 단일 입력 이미지 (I_s)와 대상 텍스트 (T)를 증강하여 다양한 학습 쌍을 생성하는 내부 데이터셋에서 Gθ를 처음부터 학습시킨다.
  • 신경 계층화 아틀라스(NLA)를 채택하여 비디오로 확장하고, 원자 레벨의 아틀라스 레이어 E_A를 편집하도록 제너레이터를 학습시키고 이를 고정 UV 매핑 M을 통해 프레임에 매핑하여 시간적 일관성을 보장한다.

실험 결과

연구 질문

  • RQ1마스크나 사전 학습된 제너레이터 없이도 실제 세계 이미지를 위한 텍스트 주도 로컬 편집을 생성할 수 있는가?
  • RQ2RGBA 편집 레이어를 생성하는 것이 직접 이미지 생성에 비해 CLIP-가이드 편집에 대해 더 나은 제어와 충실도를 제공하는가?
  • RQ3레이어드 아틀라스 표현을 사용하여 시간적 일관성을 갖춘 비디오로 이 방법을 확장할 수 있는가?
  • RQ4내부(단일 입력) 학습 및 텍스트 기반 손실이 원하고자 하는 영역과 의미로 편집을 제약하는 데 얼마나 효과적인가?

주요 결과

  • 이 방법은 질감 변화 및 반투명 효과를 포함하여 다양한 객체와 장면에 걸친 의미론적이고 로컬화된 편집을 가능하게 한다.
  • 편집 레이어(RGBA)는 전용 CLIP 기반 손실을 통해 로컬화 및 콘텐츠에 대한 정밀한 제어를 가능하게 하며 목표 프롬프트에 대한 충실도를 향상시킨다.
  • 단일 입력에서의 내부 학습은 증강된 텍스트-이미지 쌍으로 외부 제너레이터나 마스크 없이도 고품질 편집을 산출한다.
  • 신경 계층화 아틀라스(NLA)를 이용한 비디오 확장은 아틀라스 편집에서 프레임으로 매핑된 시간적으로 일관된 편집을 달성한다.
  • 주관적 AMT 평가에서 이미지 및 비디오 작업 전반에 걸쳐 마스크 없이도 기준선 대비 경쟁력 있거나 더 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.