Skip to main content
QUICK REVIEW

[논문 리뷰] DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation

Gwanghyun Kim, Kwon, Taesung|arXiv (Cornell University)|2021. 10. 06.
Image Processing Techniques and Applications인용 수 38
한 줄 요약

DiffusionCLIP은 CLIP 가이던스로 미세 조정된 확산 모델을 이용해 강건하고 제로샷 텍스트 기반 이미지 조작을 가능하게 하며, 보지 못한 도메인 및 다중 속성 변화를 포함한다.

ABSTRACT

Recently, GAN inversion methods combined with Contrastive Language-Image Pretraining (CLIP) enables zero-shot image manipulation guided by text prompts. However, their applications to diverse real images are still difficult due to the limited GAN inversion capability. Specifically, these approaches often have difficulties in reconstructing images with novel poses, views, and highly variable contents compared to the training data, altering object identity, or producing unwanted image artifacts. To mitigate these problems and enable faithful manipulation of real images, we propose a novel method, dubbed DiffusionCLIP, that performs text-driven image manipulation using diffusion models. Based on full inversion capability and high-quality image generation power of recent diffusion models, our method performs zero-shot image manipulation successfully even between unseen domains and takes another step towards general application by manipulating images from a widely varying ImageNet dataset. Furthermore, we propose a novel noise combination method that allows straightforward multi-attribute manipulation. Extensive experiments and human evaluation confirmed robust and superior manipulation performance of our methods compared to the existing baselines. Code is available at https://github.com/gwang-kim/DiffusionCLIP.git.

연구 동기 및 목표

  • 다양한 실제 이미지에서 GAN 역전의 한계를 넘어서는 견고한 제로샷 이미지 조작을 촉진한다.
  • 확산 모델의 역전 및 생성 능력을 활용해 신원을 보존하면서 콘텐츠를 충실히 편집한다.
  • 보지 못한 도메인 간의 조작을 가능하게 하고, 보지 못한 도메인 간의 번역을 가능하게 한다.
  • 단일 샘플링 프로세스에서 다중 속성 조작을 수행하기 위한 노이즈 조합 방법을 도입한다.

제안 방법

  • 사전 학습된 확산 모델을 사용해 입력 이미지를 순방향 확산(DDIM/ODE 기반)을 통해 잠재 노이즈로 매핑한다.
  • CLIP 가이드 손실로 역확산 모델을 미세 조정하여 신원을 보존하면서 속성을 목표 텍스트로 향하도록 한다.
  • CLIP 공간에서 이미지와 텍스트 방향을 정렬하기 위해 방향성 CLIP 손실을 채택하고, 원치 않는 변화를 방지하기 위해 신원 손실을 보강한다.
  • 거의 완벽한 역전과 제어된 생성을 위해 결정론적 순방향 및 역 DDIM 샘플링을 활용한다.
  • 품질과 속도의 균형을 맞추기 위해 반환 단계와 감소된 순방향/생성 단계가 있는 빠른 샘플링 전략을 도입한다.
  • 샘플링 중에 여러 미세 조정 모델의 노이즈를 선형 결합하여 다중 속성 전이를 가능하게 한다.

실험 결과

연구 질문

  • RQ1확산 기반 역전이 텍스트 프롬프트를 사용하여 도메인 내외의 실제 이미지를 충실하게 조작할 수 있는가?
  • RQ2이 방법이 보지 못한 도메인 간 번역과 스트로크나 다른 입력으로 보지 못한 도메인의 이미지를 합성하는가?
  • RQ3여러 미세 조정 모델의 노이즈를 결합하는 것이 단일 샘플링 프로세스에서 다중 속성 조작을 가능하게 하는가?
  • RQ4재구성 품질, 속도 및 속성 제어의 균형을 맞추기 위한 최적의 샘플링 하이퍼파라미터는 무엇인가?

주요 결과

  • DiffusionCLIP은 MAE, LPIPS, 및 SSIM 지표에서 GAN-역전 기준선을 능가하는 거의 완벽한 재구성 품질을 달성한다.
  • 실제 이미지를 보지 못한 도메인으로 조작하고 보지 못한 도메인 간 번역을 가능하게 하며, 질적 평가 및 인간 평가에서 기준선보다 우수하다.
  • 신원 제약이 있는 방향성 CLIP 손실은 높은 분할 일관성과 신원 보존을 가지는 견고한 속성 제어를 제공한다.
  • 단일 샘플링 단계에서 여러 미세 조정 모델의 노이즈를 결합함으로써 다중 속성 전이가 가능하다.
  • 반환 단계가 있는 빠른 샘플링 규칙과 감소된 단계 수는 충실도 손실이 적은 실용적인 속도 향상을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.