[논문 리뷰] DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models
DragonDiffusion은 미세 조정 없이 특징 대응의 그라디언트 가이던스를 통해 미리 학습된 확산 모델에서 드래그 스타일의 이미지 편집을 가능하게 하며, 객체 이동, 크기 조정, appearance 교체, 붙여넣기, 콘텐츠 드래깅을 지원한다. DDIM 역전으로부터의 메모리 은행과 시각적 교차 주의의 다중 스케일 기능으로 일관성을 확보한다.
Despite the ability of existing large-scale text-to-image (T2I) models to generate high-quality images from detailed textual descriptions, they often lack the ability to precisely edit the generated or real images. In this paper, we propose a novel image editing method, DragonDiffusion, enabling Drag-style manipulation on Diffusion models. Specifically, we construct classifier guidance based on the strong correspondence of intermediate features in the diffusion model. It can transform the editing signals into gradients via feature correspondence loss to modify the intermediate representation of the diffusion model. Based on this guidance strategy, we also build a multi-scale guidance to consider both semantic and geometric alignment. Moreover, a cross-branch self-attention is added to maintain the consistency between the original image and the editing result. Our method, through an efficient design, achieves various editing modes for the generated or real images, such as object moving, object resizing, object appearance replacement, and content dragging. It is worth noting that all editing and content preservation signals come from the image itself, and the model does not require fine-tuning or additional modules. Our source code will be available at https://github.com/MC-E/DragonDiffusion.
연구 동기 및 목표
- Diffusion 모델에서 포인트 드래깅을 넘어선 드래그 스타일의 미세한 이미지 편집을 동기 부여한다.
- 사전 학습된 확산 UNet에서 특징 대응을 통해 편집 작업을 그라디언트 가이던스로 변환한다.
- 특징의 의미적 정렬과 기하학적 정렬을 결합하는 다중 스케일 가이던스를 개발한다.
- 메모리 은행 기반의 시각적 교차 주의 전략으로 원본 이미지와의 콘텐츠 일관성을 보장한다.
- 추가 미세 조정 없이 단일 이미지 및 교차 이미지 작업에서의 편집 가능성을 입증한다.
제안 방법
- 편집을 사전 학습된 SD UNet 디노이저 내의 특징 대응 변화로 표현한다.
- Gen 및 Gud 메모리 뱅크의 특징 간 코사인 유사도를 이용해 편집 대상을 그라디언트 가이던스로 변환하는 에너지 함수들을 구성한다.
- Guidance를 위한 단계별 잠재 특징 및 주의 키/값을 저장하기 위해 메모리 뱅크를 사용하는 DDIM 역전(inversion)을 활용한다.
- 의미적 및 기하학적 정렬을 위한 두 번째 계층과 세 번째 계층 특징을 결합하여 다중 스케일 가이던스를 적용한다.
- UNet 디코더의 주의에 메모리 뱅크의 키/값을 대체하여 교차 이미지 일관성을 가능하게 하는 시각적 교차 주의를 구현한다.
- 필요에 따라 E_opt 항을 사용한 인페이팅과 유사한 방식으로 편집 영역의 인공물 억제를 보강한다.
실험 결과
연구 질문
- RQ1확실한 미세 조정 없이Diffusion 모델이 포인트 드래깅 너머의 드래그 스타일 편집을 달성할 수 있는가?
- RQ2Diffusion 모델의 층 간 특징 대응을 활용해 정확한 콘텐츠 편집 및 교차 이미지 일관성을 확보할 수 있는가?
- RQ3어떤 에너지 함수 설계 및 메모리 뱅크 전략이 의미적+기하학적 편집과 원본 콘텐츠 유지를 최적으로 달성하는가?
- RQ4메모리 뱅크 특성으로의 교차 주의가 편집 충실도 및 인공물 억제에 어떤 영향을 미치는가?
주요 결과
| 방법 | 준비 복잡도 | 추론 복잡도 | 비정렬 얼굴 | 17 포인트 | 68 포인트 | FID 17/68 포인트 |
|---|---|---|---|---|---|---|
| UserControllableLT | 1.2 s | 0.05 s | ✗ | 32.32 | 24.15 | 51.20/50.32 |
| DragGAN | 52.40s | 6.71s | ✗ | 15.96 | 10.60 | 39.27/39.50 |
| DragDiffusion | 48.25s | 19.71s | ✓ | 22.95 | 17.32 | 38.06 / 36.55 |
| DragonDiffusion(ours) | 3.62s | 15.93s | ✓ | 18.51 | 13.94 | 35.75 / 34.58 |
- 본 방법은 추가 학습 없이 특징 대응으로 인한 그라디언트 가이던스를 통해 드래그 스타일 편집을 달성한다.
- 두 번째 및 세 번째 계층 특징을 이용한 다중 스케일 가이던스가 의미적 및 기하학적 편집 품질의 균형을 이룬다.
- 메모리 뱅크와 시각적 교차 주의는 편집 영역과 원본 이미지 간의 일관성을 향상시킨다.
- DragonDiffusion은 객체 이동, 크기 조정, 외관 교체, 객체 붙여넣기, 콘텐츠 드래깅을 안정적으로 지원한다.
- DragGAN과 비교해 DragDiffusion은 비정렬/다중 객체 시나리오에서 콘텐츠 일관성과 견고함이 더 우수하다.
- 얼굴 편집 작업에서 DragonDiffusion은 편집 정확도, 견고성, 일관성 간의 우수한 균형을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.