Skip to main content
QUICK REVIEW

[논문 리뷰] SEGA: Instructing Text-to-Image Models using Semantic Guidance

Manuel Brack, F. Friedrich|arXiv (Cornell University)|2023. 01. 28.
Generative Adversarial Networks and Image Synthesis인용 수 11
한 줄 요약

SEGA는 확산 기반 텍스트-이미지 모델에 대해 의미 가이던스를 도입하여 재학습 없이 제로샷, 아키텍처에 구애받지 않는 다중 개념 편집을 가능하게 한다. 노이즈 추정 공간의 희소 차원을 조작하는 방식으로 수행한다.

ABSTRACT

Text-to-image diffusion models have recently received a lot of interest for their astonishing ability to produce high-fidelity images from text only. However, achieving one-shot generation that aligns with the user's intent is nearly impossible, yet small changes to the input prompt often result in very different images. This leaves the user with little semantic control. To put the user in control, we show how to interact with the diffusion process to flexibly steer it along semantic directions. This semantic guidance (SEGA) generalizes to any generative architecture using classifier-free guidance. More importantly, it allows for subtle and extensive edits, changes in composition and style, as well as optimizing the overall artistic conception. We demonstrate SEGA's effectiveness on both latent and pixel-based diffusion models such as Stable Diffusion, Paella, and DeepFloyd-IF using a variety of tasks, thus providing strong evidence for its versatility, flexibility, and improvements over existing methods.

연구 동기 및 목표

  • 확산 모델에서 의미적 안내(SEGA)의 형식적 정의와 직관을 제공한다.
  • 의미 방향이 노이즈 추정 공간에서 강건하고 단조적이며 대체로 고립되어 있음을 보인다.
  • 아키텍처 변경이나 학습 없이 SEGA가 미세한 편집, 구성/스타일 변화, 예술적으로 안내된 개념 조작을 수행할 수 있음을 시연한다.
  • SEGA를 관련 방법들과 비교 평가하고 여러 생성 모델에서의 실용적 유용성을 입증한다.

제안 방법

  • 분류기 프리 가이던스를 의미 가이던스 계산으로 확장하여 개념 조건 프롬프트와 비조건 노이즈 추정에서 유도된 가이던스를 사용한다.
  • 개념 프롬프트로 조건화된 엡실론 추정과 비조건 추정 간의 차이를 분석하여 의미 방향을 식별한다.
  • 희박한 꼬리 기반의 선택(lambda 분위수)을 통해 개념 벡터를 형성하고 이 벡터가 대체로 고립되도록 한다.
  • 가이던스가 적용되는 시기와 방법을 제어하고 일관된 편집의 가속화를 위한 예열 기간(delta)과 모멘텀 항을 도입한다.
  • 개념별 하이퍼파라미터를 사용해 gamma_i의 가중합으로 여러 개념을 결합하도록 한다.
  • 잠재 및 픽셀 기반 확산 모델에 적용 가능한 구현 비의존적 공식화를 제공하며 공개 코드 구현을 포함한다.
(a) A (latent) diffusion process inherently organizes concepts and learns implicitly relationships between them, although there is no supervision.
(a) A (latent) diffusion process inherently organizes concepts and learns implicitly relationships between them, although there is no supervision.

실험 결과

연구 질문

  • RQ1학습이나 아키텍처 변경 없이도 확산 모델의 노이즈 추정 공간에서 의미 방향을 추출할 수 있는가?
  • RQ2의미 가이던스 벡터가 프롬프트와 도메인에 걸쳐 강건성, 고유성, 단조성 및 격리를 보이나?
  • RQ3SEGA가 여러 편집을 동시에 비간섭적으로 수행하고 강도를 제어할 수 있는가?
  • RQ4편집 성공률과 원래 구성에 대한 충실도 측면에서 SEGA가 기존 확산 편집 방법들과 비교하여 어떤 차이를 보이나?
  • RQ5SEGA가 원치 않는 콘텐츠를 완화하거나 다양한 아키텍처에서 부적절한 개념으로부터 생성을 방향 전환하는 데 기여할 수 있는가?

주요 결과

  • 의미 가이던스 벡터는 노이즈 추정에서 추출 가능하며 단 한 차례의 순전파로 적용할 수 있다.
  • 가이던스 벡터는 도메인에 대해 강건하고 거의 각 개념마다 고유하며, 가이던스 강도에 따라 효과가 단조롭게 증가한다.
  • 다양한 개념 벡터가 대체로 고립되어 있어 간섭 없이 동시 편집이 가능하고 다중 개념 조작을 가능하게 한다.
  • SEGA는 여러 편집 작업에서 비교적 방법들보다 우수하며 원래 구성에 대한 충실도와 스타일 이전, 객체 제거를 향상시킨다.
  • 얼굴 및 I2P 벤치마크 실험에서 SEGA는 여러 아키텍처에 걸쳐 편집 성공률이 높고 부적절한 콘텐츠의 강한 완화를 보여준다.
  • 정성적 및 사용자 연구 증거는 SEGA의 편집이 충실하게 인식되며 여러 기준선보다 바람직한 결과를 제시한다.
(b) Guidance arithmetic: Guiding the image ‘a portrait of a king’ (left) using ‘king’ $-$ ‘male’ $+$ ‘female’ results in an image of a ‘queen’ (right).
(b) Guidance arithmetic: Guiding the image ‘a portrait of a king’ (left) using ‘king’ $-$ ‘male’ $+$ ‘female’ results in an image of a ‘queen’ (right).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.