QUICK REVIEW

[논문 리뷰] Adding Conditional Control to Text-to-Image Diffusion Models

Lvmin Zhang, Rao, Anyi|arXiv (Cornell University)|2023. 02. 10.

Advanced Neuroimaging Techniques and Applications인용 수 204

한 줄 요약

ControlNet은 frozen 백본과 학습 가능한 사본을 제로 초기화된 컨볼루션으로 연결하여 대형 사전 학습된 텍스트-투-이미지 확산 모델에 학습 가능한 조건 제어를 추가하고, 최소한의 데이터와 계산으로 다양한 조건(에지, 깊이, 포즈 등)을 가능하게 한다.

ABSTRACT

We present ControlNet, a neural network architecture to add spatial conditioning controls to large, pretrained text-to-image diffusion models. ControlNet locks the production-ready large diffusion models, and reuses their deep and robust encoding layers pretrained with billions of images as a strong backbone to learn a diverse set of conditional controls. The neural architecture is connected with "zero convolutions" (zero-initialized convolution layers) that progressively grow the parameters from zero and ensure that no harmful noise could affect the finetuning. We test various conditioning controls, eg, edges, depth, segmentation, human pose, etc, with Stable Diffusion, using single or multiple conditions, with or without prompts. We show that the training of ControlNets is robust with small (<50k) and large (>1m) datasets. Extensive results show that ControlNet may facilitate wider applications to control image diffusion models.

연구 동기 및 목표

프롬프트를 넘어 텍스트-투-이미지 확산에서 더 미세한 공간 제어를 동기 부여한다.
사전 학습된 모델을 동결하여 백본을 보존하면서 엔드 투 엔드 재파인팅 접근법을 제안한다.
에지, 깊이, 포즈, 세분화 등 다양한 조건 입력을 시연하고 데이터 세트 규모에 따른 강건성을 평가한다.
ControlNet이 다중 조건 신호를 구성하고 프롬프트 유무에 관계없이 작동할 수 있음을 보여준다.

제안 방법

ControlNet 도입: 고정된 백본에 제로 초기화된 1x1 컨볼루션으로 연결된 학습 가능한 사전 학습된 확산 백본의 복사본.
입력 조건 이미지(예: 에지, 깊이, 포즈)를 확산 모델의 블록에 맞춰 정렬된 특징 맵으로 변환하는 조건 인코더를 부착한다.
원래 모델을 동결된 상태로 유지하고 ControlNet 구성요소만 학습시켜 재앙적 망각을 피한다.
조건 이미지를 잠재 확산 입력과 일치하는 64x64 특성 공간으로 매핑하는 작은 인코더 E를 사용한다.
Stable Diffusion에 이 방법을 적용하고 인코더 및 중간 블록에 ControlNet 블록을 삽입하며 다중 조건 신호의 구성을 가능하게 한다.
추론 중 조건화 영향력을 조절하기 위해 CFG 해상도 가중치를 갖는 분류자 없는 지도(CFG)를 활용한다.

실험 결과

연구 질문

RQ1백본을 업데이트하지 않고도 ControlNet이 대형 사전 학습 확산 모델에 안정적인 조건화를 가능하게 할 수 있는가?
RQ2생성 지도를 위해 어떤 조건 모달리티(에지, 깊이, 포즈, 세분화 등)가 효과적이며 여러 조건은 어떻게 상호 작용하는가?
RQ3다양한 학습 데이터 규모와 서로 다른 모델 변종(예: 단일 조건 대 다중 조건)에서 ControlNet은 어떻게 작동하는가?
RQ4ControlNet을 사용할 때 조건화 충실도와 출력 품질의 균형을 맞추기 위해 CFG를 어떻게 조정해야 하는가?

주요 결과

방법	결과 품질 AUR	조건 충실도 AUR
PITI [89] (sketch)	1.10 ± 0.05	1.02 ± 0.01
Sketch-Guided [88] (β=1.6)	3.21 ± 0.62	2.31 ± 0.57
Sketch-Guided [88] (β=3.2)	2.52 ± 0.44	3.28 ± 0.72
ControlNet-lite	3.93 ± 0.59	4.09 ± 0.46
ControlNet	4.22 ± 0.43	4.28 ± 0.45

ControlNet은 프롬프트가 있어도 없도 에지, 깊이, 포즈, 세분화 등 단일 또는 다중 조건 입력으로 Stable Diffusion을 조정할 수 있다.
학습은 작은 데이터세트(<50k)와 큰 데이터세트(>1M) 모두에서 견고하며 백본 동결과 제로 초기화 연결 사용의 이점을 얻는다.
제로 합성곱은 학습 초기의 유해한 노이즈를 방지하여 큰 사전 학습 백본을 보존한다.
CFG 해상도 가중치는 추론 중 조건화 영향력을 미묘하게 제어하게 하여 품질을 희생하지 않으면서 충실도를 향상시킨다.
사용자 연구와 정량적 지표는 결과 품질과 조건 충실도에서 ControlNet이 여러 기본선보다 우수한 성능을 보임을 보여준다(예: ControlNet의 AUR이 Sketch-Guided 버전보다 높음).
ControlNets는 신경 블록 재학습 없이 커뮤니티 확산 모델로 이식될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.