Skip to main content
QUICK REVIEW

[논문 리뷰] DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing

Yujun Shi, Chuhui Xue|arXiv (Cornell University)|2023. 06. 26.
Generative Adversarial Networks and Image Synthesis인용 수 15
한 줄 요약

DragDiffusion은 확산 모델에 인터랙티브 포인트 기반 이미지 편집을 확장하여 단일 확산 단계의 잠재 공간을 최적화함으로써 정밀하고 유연한 편집을 가능하게 하며, 신원(identity) 보존 및 새로운 DragBench 벤치마크를 제공합니다.

ABSTRACT

Accurate and controllable image editing is a challenging task that has attracted significant attention recently. Notably, DragGAN is an interactive point-based image editing framework that achieves impressive editing results with pixel-level precision. However, due to its reliance on generative adversarial networks (GANs), its generality is limited by the capacity of pretrained GAN models. In this work, we extend this editing framework to diffusion models and propose a novel approach DragDiffusion. By harnessing large-scale pretrained diffusion models, we greatly enhance the applicability of interactive point-based editing on both real and diffusion-generated images. Our approach involves optimizing the diffusion latents to achieve precise spatial control. The supervision signal of this optimization process is from the diffusion model's UNet features, which are known to contain rich semantic and geometric information. Moreover, we introduce two additional techniques, namely LoRA fine-tuning and latent-MasaCtrl, to further preserve the identity of the original image. Lastly, we present a challenging benchmark dataset called DragBench -- the first benchmark to evaluate the performance of interactive point-based image editing methods. Experiments across a wide range of challenging cases (e.g., images with multiple objects, diverse object categories, various styles, etc.) demonstrate the versatility and generality of DragDiffusion. Code: https://github.com/Yujun-Shi/DragDiffusion.

연구 동기 및 목표

  • GAN의 한계를 극복하기 위해 확산 모델을 활용한 인터랙티브 포인트 기반 이미지 편집의 동기를 부여한다.
  • 실제 이미지와 확산 생성 이미지에서 정확하고 의미적으로 일관된 편집을 가능하게 한다.
  • 편집 중 이미지의 정체성을 보존하면서 영역별 수정이 가능하게 한다.

제안 방법

  • 입력 이미지의 정체성을 보존하기 위해 LoRA로 확산 모델 UNet을 미세 조정한다.
  • 입력 이미지를 확산 잠재로 역변환하고 핸들-대상 편집을 구현하기 위해 단일 확산 단계 잠재를 최적화한다.
  • 일관성과 이미지 품질을 유지하기 위해 참조 잠재에 의해 가이드되는 DDIM 디노이징을 적용한다.
  • 드래그 기반 편집을 유도하기 위해 UNet 특징 맵 기반 손실과 마스킹된 정규화 항을 포함한 모션 감독을 사용한다.
  • 편집 중 대응 관계를 유지하기 위해 반복 간 핸들 포인트를 UNet 특징 맵을 사용해 추적한다.
  • 원래 잠재 특징으로 디노이징 과정을 안내하여 정체성 일관성을 향상시키는 참조-잠재 제어를 도입한다.

실험 결과

연구 질문

  • RQ1확산 모델이 Drag GAN과 동일한 드래그 기반 패러다임으로 정확하고 인터랙티브한 포인트 기반 편집을 지원할 수 있는가?
  • RQ2실제 이미지와 확산 생성 이미지에서 신뢰할 수 있는 편집을 가능하게 하는 잠재 최적화 전략과 지원 메커니즘(정체성 보존, 참조 가이드)은 무엇인가?
  • RQ3다양한 이미지 도메인에 대해 충실도와 정확한 드래깅 측면에서 확산 기반 편집기가 GAN 기반 DragGAN과 어떻게 비교되는가?
  • RQ4전용 벤치마크(DragBench)가 확산 기반 인터랙티브 편집 방법의 강점과 한계를 드러내는가?

주요 결과

  • DragDiffusion은 Drag GAN에 비해 편집의 다양성을 크게 향상시키며, 실제 이미지와 확산 생성 이미지 전반에 걸쳐 콘텐츠 채움 등을 포함한다.
  • 편집은 다중 단계가 아닌 단일 확산 단계 잠재의 최적화에 의존하며, UNet 특징의 PCA 기반 관찰에 의해 보조된다.
  • 정체성 보존 미세조정(LoRA)과 참조-잠재 제어는 이미지 정체성과 편집 일관성을 유지하는 데 결정적이다.
  • DragBench는 다양한 데이터셋과 편집 성능을 정량화하는 두 가지 지표(Image Fidelity 및 Mean Distance)를 제공한다.
  • 소거 실험은 최적 반전 단계 범위(t in [30,40])와 80개의 정체성 보존 미세조정 단계가 성능과 효율의 균형을 이룬다는 것을 보여준다.
  • 더 깊은 블록의 UNet 특징을 사용하면 충실도가 높아지지만 매우 높은 수준의 특징은 정확한 공간 제어에 해를 줄 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.