Skip to main content
QUICK REVIEW

[논문 리뷰] Highly Personalized Text Embedding for Image Manipulation by Stable Diffusion

Inhwa Han, Serin Yang|arXiv (Cornell University)|2023. 03. 15.
Generative Adversarial Networks and Image Synthesis인용 수 10
한 줄 요약

본 논문은 HiPer를 제시하며, CLIP 임베딩을 매우 개인화된 tail과 의미적 head로 분해해 단일 이미지 텍스트 지시를 통해 배경, 질감, 모션의 개인화된 조작을 가능하게 하는 간단하고 비-미세조정 방법이다.

ABSTRACT

Diffusion models have shown superior performance in image generation and manipulation, but the inherent stochasticity presents challenges in preserving and manipulating image content and identity. While previous approaches like DreamBooth and Textual Inversion have proposed model or latent representation personalization to maintain the content, their reliance on multiple reference images and complex training limits their practicality. In this paper, we present a simple yet highly effective approach to personalization using highly personalized (HiPer) text embedding by decomposing the CLIP embedding space for personalization and content manipulation. Our method does not require model fine-tuning or identifiers, yet still enables manipulation of background, texture, and motion with just a single image and target text. Through experiments on diverse target texts, we demonstrate that our approach produces highly personalized and complex semantic image edits across a wide range of tasks. We believe that the novel understanding of the text embedding space presented in this work has the potential to inspire further research across various tasks.

연구 동기 및 목표

  • 매우 개인화된 텍스트 임베딩이 주체의 신원을 보존하면서 텍스트 프롬프트에 의해 안내되는 의미 편집을 가능하게 할 수 있음을 시연한다.
  • 확산 기반 이미지 조작에서 개인화를 위해 모델 미세조정이나 식별자 필요성을 제거한다.
  • 단일 소스 이미지와 대상 텍스트로 배경, 질감, 모션의 조작이 가능함을 보여준다.

제안 방법

  • 소스 CLIP 임베딩을 의미 부분과 tail 부분으로 분해하고, 신원을 보존하기 위해 tail을 HiPer 임베딩으로 유지한다.
  • 의미 헤드를 고정한 채 HiPer tail 임베딩(N 토큰)만 최적화하고, 확산 모델 손실을 사용한다.
  • 추론 시 대상 의미 임베딩과 HiPer tail을 연결(concatenate)하여 합성 임베딩을 구성하고 이를 통해 이미지 생성을 유도한다.
  • 이미지 공간이 아닌 Stable Diffusion의 잠재 공간에서 최적화를 수행한다.
  • 모델 미세조정이나 식별자 없이 약 3분, 1000 최적화 단계, N=5의 짧은 학습 프로세스를 사용한다.
Figure 1 : Image manipulation results with highly personalized (HiPer) text embeddings. In the upper row, the identities of the rabbit and the dog are well preserved while adequately manipulating the images to align with target texts. In the bottom row, not only motion and background, but also textu
Figure 1 : Image manipulation results with highly personalized (HiPer) text embeddings. In the upper row, the identities of the rabbit and the dog are well preserved while adequately manipulating the images to align with target texts. In the bottom row, not only motion and background, but also textu

실험 결과

연구 질문

  • RQ1작고 매우 개인화된 tail 임베딩이 주체의 신원을 보존하면서 유연한 대상 텍스트 기반 편집을 가능하게 할 수 있는가?
  • RQ2CLIP 임베딩을 개인화된 tail과 의미 헤드로 분해하는 것이 확산 모델을 미세조정하지 않고도 다면 편집(모션, 배경, 질감)을 개선하는가?
  • RQ3개인화 토큰의 수 N이 신원 보존 및 편집 정밀도에 미치는 영향은 무엇인가?

주요 결과

  • HiPer는 소스 신원을 보존하면서 모션, 배경, 질감 전반에 걸친 매우 개인화된 편집을 가능하게 한다.
  • 단일 소스 이미지로 HiPer tail(N=5)만 최적화하는 경우 Stable Diffusion 하에서 DreamBooth, Textual Inversion, Imagic 기준선과 비교하여 경쟁력 있거나 더 우수한 결과를 얻는다.
  • N을 증가시키면 과적합 및 소스 이미지에서의 신원 누출이 발생하고, N이 너무 작으면 신원 보존이 감소한다.
  • 교차 어텐션 분석은 개인화 임베딩이 표준 임베딩과 다르게 주의 맵을 활성화함을 보여주며, 개인화와 조작의 분리를 뒷받침한다.
  • 이 방법은 모델 미세조정이 필요 없으며 약 3분 정도의 훈련 시간을 달성한다.
Figure 2 : The proposed method. (Training) First, the source text prompt, which have the meaning of source image, is converted to text embedding. Some parts of text embedding, which have no information, are removed. The informative target embedding part and the personalized embedding is concatenated
Figure 2 : The proposed method. (Training) First, the source text prompt, which have the meaning of source image, is converted to text embedding. Some parts of text embedding, which have no information, are removed. The informative target embedding part and the personalized embedding is concatenated

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.