QUICK REVIEW

[논문 리뷰] High-Resolution Image Synthesis with Latent Diffusion Models

Robin Rombach, Andreas Blattmann|arXiv (Cornell University)|2021. 12. 20.

Generative Adversarial Networks and Image Synthesis인용 수 701

한 줄 요약

Latent Diffusion Models (LDMs)은 사전 학습된 오토인코더를 통해 지각적으로 등가적이고 더 낮은 차원의 잠재 공간에서 확산 모델을 훈련시켜 고해상도 이미지 합성을 가능하게 하며, 텍스트나 레이아웃에 대한 유연한 교차 주의(크로스 어텐션) 조건 부여를 제공합니다.

ABSTRACT

By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism to control the image generation process without retraining. However, since these models typically operate directly in pixel space, optimization of powerful DMs often consumes hundreds of GPU days and inference is expensive due to sequential evaluations. To enable DM training on limited computational resources while retaining their quality and flexibility, we apply them in the latent space of powerful pretrained autoencoders. In contrast to previous work, training diffusion models on such a representation allows for the first time to reach a near-optimal point between complexity reduction and detail preservation, greatly boosting visual fidelity. By introducing cross-attention layers into the model architecture, we turn diffusion models into powerful and flexible generators for general conditioning inputs such as text or bounding boxes and high-resolution synthesis becomes possible in a convolutional manner. Our latent diffusion models (LDMs) achieve a new state of the art for image inpainting and highly competitive performance on various tasks, including unconditional image generation, semantic scene synthesis, and super-resolution, while significantly reducing computational requirements compared to pixel-based DMs. Code is available at https://github.com/CompVis/latent-diffusion .

연구 동기 및 목표

픽셀 공간이 아닌 잠재 공간에서의 학습 및 샘플링으로 확산 모델의 계산 요구를 줄이는 것.
효율적인 오토인코딩을 통해 메가픽셀 규모의 합성을 가능하게 하면서도 높은 충실도와 디테일을 보존하는 것.
다중 모드 입력(text, semantic maps, layouts)에 대해 교차 주의(Cross-Attention) 조건부 확산을 도입하는 것.
재사용 가능한 사전 학습 모델을 통해 무조건적, 텍스트-투-이미지, 인페인팅, 초해상도 작업에서 경쟁력 있거나 최첨단 결과를 입증하는 것.

제안 방법

지각적 오토인코더를 학습시켜 z = E(x)로 표현되는 저차원 잠재 공간을 학습하고 제어된 다운샘플링 계수 f를 사용한다; z에서 x를 재구성하기 위해 디코더 D를 사용한다.
목적 L_LDM = E_{E(x), ε ~ N(0,1), t}[||ε − ε_θ(z_t, t)||^2], 여기서 z_t는 스텝 t에서의 노이즈가 추가된 잠재 변수다.
UNet 백본에 교차 주의(Cross-Attention)를 보강하여 도메인 특성 인코더 τ_θ(y)를 통해 y 모달리티에 따라 생성 조건을 부여함으로써 텍스트, 의미 레이아웃 또는 기타 입력을 가능하게 한다.
이미지 데이터에 적합한 CNN 기반 2D 컨볼루션을 활용하면서 잠재 공간에서 확산이 작동하는 두 단계 프레임워크를 구현한다.
크로스 어텐션 기반 메커니즘을 통한 유연한 조건 부여를 가능하게 하여 텍스트-투-이미지, 레이아웃-투-이미지 및 기타 다중 모달 작업을 수행한다(품질 향상을 위한 분류기-프리 가이던스 포함).
재사용을 위한 사전 학습된 잠재 인코더/디코더 및 LDM을 다양한 작업에 제공한다(무조건, 텍스트-투-이미지, 인페인팅, 초해상도).

실험 결과

연구 질문

RQ1학습된 잠재 공간에서 작동하는 확산 모델이 픽셀 공간 확산 품질과 견주며 학습 및 샘플링 비용을 줄일 수 있는가?
RQ2교차 주의 조건 부여가 잠재 확산에서 강력한 다중 모달 생성(텍스트, 레이아웃, 의미 맵)을 가능하게 하는가?
RQ3지각적 압축(잠재 다운샘플링 계수 f)이 고해상도 작업에서 합성 품질과 효율성에 어떤 영향을 미치는가?
RQ4LDM이 무조건적 생성, 텍스트-투-이미지, 인페인팅, 초해상도에서 고해상도에도 경쟁력 있거나 최첨단 결과를 제공하는가?
RQ5사전 학습된 잠재 자동인코더가 다양한 확산 모델과 작업에서 재사용 가능한가?

주요 결과

학습된 잠재 공간에서의 잠재 확산은 픽셀 공간 확산보다 계산이 크게 감소하면서도 고해상도 합성을 강하게 제공한다.
무조건적 LDM은 CelebA-HQ, FFHQ, LSUN-Churches, LSUN-Bedrooms, ImageNet 클래스 조건에서 상태-예측(FID) 및 정밀도/재현에 대해 경쟁력 있거나 최첨단 결과를 더 적은 매개변수와 학습 리소스로 달성한다.
교차 주의 조건 부인은 텍스트-투-이미지, 레이아웃-투-이미지 및 의미 합성을 가능하게 하며, AR 또는 확산 기준선보다 적은 매개변수로 경쟁력 있는 MS-COCO 텍스트-투-이미지 결과를 달성한다.
LDM-SR(초해상도)는 FID 및 지각적 품질에서 강한 성능을 보이며 종종 SR3를 능가하는 FID를 달성하고 지각적 지표도 경쟁력을 유지한다; 사용자 연구는 LDM 기반 출력에 더 우호적이다.
잠재 공간에서의 합성 샘플링은 픽셀 공간 확산 접근법보다 샘플 처리량이 더 안정적이고 대형 이미지(메가픽셀급) 생성이 가능하게 한다.
전반적으로 LDM은 다중 고해상도 이미지 합성 작업에서 충실도를 희생하지 않으면서 계산 요구를 줄이는 유연하고 재사용 가능한 프레임워크를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.