QUICK REVIEW

[논문 리뷰] Diffusion Self-Guidance for Controllable Image Generation

Dave Epstein, Allan Jabri|arXiv (Cornell University)|2023. 06. 01.

Music and Audio Processing인용 수 42

한 줄 요약

우리는 내부 확산-모델 표현을 사용하여 샘플링 도중 객체의 모양, 위치 및 외관을 제어하는 제로샷 방법인 self-guidance를 도입합니다. 추가 학습이나 모델 없이.

ABSTRACT

Large-scale generative models are capable of producing high-quality images from detailed text descriptions. However, many aspects of an image are difficult or impossible to convey through text. We introduce self-guidance, a method that provides greater control over generated images by guiding the internal representations of diffusion models. We demonstrate that properties such as the shape, location, and appearance of objects can be extracted from these representations and used to steer sampling. Self-guidance works similarly to classifier guidance, but uses signals present in the pretrained model itself, requiring no additional models or training. We show how a simple set of properties can be composed to perform challenging image manipulations, such as modifying the position or size of objects, merging the appearance of objects in one image with the layout of another, composing objects from many images into one, and more. We also show that self-guidance can be used to edit real images. For results and an interactive demo, see our project page at https://dave.ml/selfguidance/

연구 동기 및 목표

텍스트 프롬프트를 넘어 대규모 확산 생성 이미지에 대한 더 큰 제어를 동기부여하고 가능하게 한다.
추가 모델이나 감독 없이 샘플링을 조정하기 위해 내부 표현(활성화 및 어텐션)을 추출할 수 있음을 보인다.
간단한 특성의 구성을 통해 복잡한 이미지 조작 및 실제 이미지 편집을 수행하는 것을 시연한다.
확산 모델의 내부 신호를 사용하여 실제 이미지를 재구성하고 편집하는 방법을 확장한다.

제안 방법

self-guidance를 확산 샘플링 중 중간 활성화 및 어텐션 맵에 대한 제약으로 정의한다.
샘플링을 안내하기 위해 어텐션 채널과 활성화로부터 객체 관련 속성(위치, 크기, 모양, 외관)을 추출한다.
이 속성들의 그래디언트를 통해 샘플링 업데이트를 수정하는 목표 지향 용어를 공식화한다(Eq. 4).
구체적이고 계산 가능한 속성을 도출한다: 객체 중심점(위치), 어텐션 합계에서의 크기, 임계값 처리된 모양, 그리고 모양 및 활성화 기반 지표에서의 외관.
여러 가이던스 용어를 결합하여 객체를 재배치, 크기 조정, 교체 또는 재배열하고 다른 이미지의 레이아웃과 외관을 혼합하는 방법을 보여준다.
중간 노이즈 표현을 사용한 가이드 확산을 통해 실제 사진을 재구성하고 편집함으로써 실제 이미지 편집을 시연한다.

실험 결과

연구 질문

RQ1내부 확산-모델 표현(어텐션 및 활성화)을 사용하여 객체 속성에 대한 제로샷 제어를 달성할 수 있는가?
RQ2모델 내부에서 도출된 특정 속성(위치, 크기, 모양, 외관)이 의미 있고 분리된 편집을 가능하게 하는가?
RQ3레이아웃 전이, 외관 전이 또는 다중 이미지 구성을 포함한 복잡한 조작을 수행하기 위해 이러한 속성을 어떻게 구성할 수 있는가?
RQ4중간 확산 표현을 활용하여 실제 이미지를 편집하는 데 self-guidance를 확장할 수 있는가?

주요 결과

Self-guidance는 추가 학습이나 모델 없이 객체의 위치, 크기, 모양, 외관을 제어할 수 있게 한다.
작은 속성 집합을 결합하는 것은 객체 이동, 크기 조정, 외관 병합 및 이미지 간 레이아웃 전이와 같은 복잡한 조작을 가능하게 한다.
이 방법은 확산 모델의 내부에서 얻은 계산된 레이아웃과 외관으로 캡션을 재구성하여 실제 이미지를 편집하는 것을 지원한다.
어텐션 맵에서 파생된 가이던스 신호를 사용하여 객체와 이미지 간에 모양과 외관을 복사하고, 교차 이미지 구성을 가능하게 한다.
한계로는 어텐션 채널의 부분적인 얽힘과 여러 토큰을 동시에 가이드할 때 발생하는 외관 누출이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.