QUICK REVIEW

[논문 리뷰] Imagic: Text-Based Real Image Editing with Diffusion Models

Bahjat Kawar, Shiran Zada|arXiv (Cornell University)|2022. 10. 17.

Generative Adversarial Networks and Image Synthesis인용 수 34

한 줄 요약

Imagic는 사전 학습된 확산 모델을 사용해 단일 실제 이미지에서 텍스트 기반의 복잡하고 비강성 편집을 가능하게 하며, 텍스트 임베딩을 최적화하고 모델을 미세 조정하며 임베딩을 보간해 충실도와 대상 텍스트 정렬 간의 균형을 맞춘다.

ABSTRACT

Text-conditioned image editing has recently attracted considerable interest. However, most methods are currently either limited to specific editing types (e.g., object overlay, style transfer), or apply to synthetically generated images, or require multiple input images of a common object. In this paper we demonstrate, for the very first time, the ability to apply complex (e.g., non-rigid) text-guided semantic edits to a single real image. For example, we can change the posture and composition of one or multiple objects inside an image, while preserving its original characteristics. Our method can make a standing dog sit down or jump, cause a bird to spread its wings, etc. -- each within its single high-resolution natural image provided by the user. Contrary to previous work, our proposed method requires only a single input image and a target text (the desired edit). It operates on real images, and does not require any additional inputs (such as image masks or additional views of the object). Our method, which we call "Imagic", leverages a pre-trained text-to-image diffusion model for this task. It produces a text embedding that aligns with both the input image and the target text, while fine-tuning the diffusion model to capture the image-specific appearance. We demonstrate the quality and versatility of our method on numerous inputs from various domains, showcasing a plethora of high quality complex semantic image edits, all within a single unified framework.

연구 동기 및 목표

보조 입력 없이 단일 고해상도 실제 이미지에서 텍스트 기반의 의미론적 편집을 가능하게 한다.
이미지 충실도를 유지하면서 대상 텍스트에 정렬된 포즈, 구도 등의 복합적인 비강성 편집을 달성한다.
입력 이미지 표현과 대상 편집 간의 의미적으로 의미 있는 임베딩 보간을 시연한다.
텍스트 편집 방법을 평가하기 위한 도전적인 벤치마크(TEdBench)를 도입한다.

제안 방법

텍스트 프롬프트에 조건화된 사전 학습된 텍스트-투-이미지 확산 모델을 사용해 실제 이미지를 편집한다.
잡음 제거 목표를 사용해 입력 이미지를 재구성하도록 대상 텍스트 임베딩을 최적화한다.
최적화된 임베딩에서 입력 이미지를 더 잘 매치하도록 확산 모델(및 보조 업스케일러)을 미세 조정한다.
최적화된 이미지 임베딩과 대상 텍스트 임베딩 사이를 선형 보간해 편집 임베딩을 얻는다.
보간된 임베딩에 조건화된 확산 프로세스를 실행해 편집된 이미지를 생성하고, 필요 시 초해상도를 적용한다.

실험 결과

연구 질문

RQ1텍스트 프롬프트와 하나의 입력 이미지만으로도 단일 실제 이미지에 복잡한 비강성 편집을 적용할 수 있는가?
RQ2텍스트 임베딩 최적화와 확산 모델의 미세 조정이 원본 이미지에 높은 충실도를 보이면서 대상 텍스트 정렬을 달성할 수 있는가?
RQ3이미지 표현 임베딩과 대상 편집 임베딩 간의 선형 보간이 편집에 대해 의미론적으로 의미가 있는가?
RQ4도전적인 벤치마크에서 기존의 단일 이미지 편집 방법에 비해 Imagic의 성능은 어떠한가?
RQ5다양한 편집 강도(에타)가 충실도와 텍스트 정렬에 미치는 영향은 무엇인가?

주요 결과

Imagic는 복잡한 편집에서 입력 이미지에 대한 높은 충실도와 대상 텍스트 정렬을 달성한다.
이 방법은 하나의 프레임워크 내에서 실제 이미지의 자세와 구도 변경과 같은 편집을 가능하게 한다.
TEdBench에서 인간 평가자는 편집 품질 면에서 Imagic를 SDEdit, DDIB, Text2LIVE보다 선호하는 경향을 보이며(>70% 선호).
임베딩 최적화, 모델 미세 조정, 임베딩 보간의 세 단계 과정이 품질 편집에 필수적이다.
확산 모델의 미세 조정은 입력 이미지를 재구성하고 의미 있는 보간을 가능하게 하는 데 중요하다.
다양한 도메인에서 Imagen과 Stable Diffusion으로 이 접근법을 시연한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.