QUICK REVIEW

[논문 리뷰] Controllable and Compositional Generation with Latent-Space Energy-Based Models

Weili Nie, Arash Vahdat|arXiv (Cornell University)|2021. 10. 21.

Generative Adversarial Networks and Image Synthesis인용 수 19

한 줄 요약

이 논문은 사전에 훈련된 생성 모델(예: StyleGAN)의 잠재공간에서 에너지 기반 모델을 사용하여 제어 가능하고 조합적인 생성을 위한 LACE(Latent-space Compositional Energy-based model)를 제안한다. 속성 조건에 맞는 에너지 함수를 모델링하기 위해 분류기를 훈련하고, 적응형 ODE 솔버를 통해 샘플링함으로써 LACE는 1024×1024 해상도에서 새로운 속성 조합을 제로샷으로 조합할 수 있는 빠르고 안정적이며 고품질의 이미지 생성을 가능하게 한다.

ABSTRACT

Controllable generation is one of the key requirements for successful adoption of deep generative models in real-world applications, but it still remains as a great challenge. In particular, the compositional ability to generate novel concept combinations is out of reach for most current models. In this work, we use energy-based models (EBMs) to handle compositional generation over a set of attributes. To make them scalable to high-resolution image generation, we introduce an EBM in the latent space of a pre-trained generative model such as StyleGAN. We propose a novel EBM formulation representing the joint distribution of data and attributes together, and we show how sampling from it is formulated as solving an ordinary differential equation (ODE). Given a pre-trained generator, all we need for controllable generation is to train an attribute classifier. Sampling with ODEs is done efficiently in the latent space and is robust to hyperparameters. Thus, our method is simple, fast to train, and efficient to sample. Experimental results show that our method outperforms the state-of-the-art in both conditional sampling and sequential editing. In compositional generation, our method excels at zero-shot generation of unseen attribute combinations. Also, by composing energy functions with logical operators, this work is the first to achieve such compositionality in generating photo-realistic images of resolution 1024x1024. Code is available at https://github.com/NVlabs/LACE.

연구 동기 및 목표

새로운 속성 조합을 생성하기 어려운 딥 생성 모델에서의 조합적 생성 문제를 해결한다.
재훈련이 필요하고 새로운 속성 조합을 다루기 어려운 조건부 GAN 및 잠재공간 방향 방법의 한계를 극복한다.
사전에 훈련된 생성기로 효율적이고 고해상도(1024×1024)의 이미지 생성을 가능하게 하며 제어 가능성을 확보한다.
픽셀 공간의 랭지에르 동역학 대신 잠재공간에서 ODE 솔버를 활용함으로써 안정적이고 빠른 샘플링을 실현한다.
논리 연산자(예: AND, OR)를 사용해 여러 에너지 함수를 조합하여 사실적인 이미지에서 복잡한 새로운 속성 조합을 생성할 수 있도록 한다.

제안 방법

사전에 훈련된 생성기(예: StyleGAN)의 잠재공간에서 공동 에너지 기반 모델(EBM)을 설정하며, 데이터 분포는 암묵적이고 속성 분포는 분류기를 통해 모델링한다.
재구성 기법을 사용해 잠재공간 내의 EBM 에너지 함수를 표현함으로써 표준 가우시안과 같은 알려진 사전 분포로 변환하고, 훈련을 분류기 학습으로만 단순화한다.
역확산 과정에서 유도된 확률 흐름 ODE를 사용해 EBM에서 샘플링하며, 적응형 스텝 크기를 갖는 효율적이고 안정적인 샘플링을 가능하게 한다.
ODE 솔버(예: dopri5)를 활용해 샘플링함으로써 기존 랭지에르 동역학 대비 더 안정적이고 하이퍼파ram터에 덜 민감한 성능을 확보한다.
논리 연산자(예: AND, OR)를 사용해 다수의 에너지 함수를 조합함으로써 복잡한 속성 조합을 가진 이미지를 생성할 수 있도록 한다.
속성 분류기를 데이터 공간에서 훈련하고 모든 샘플링을 잠재공간에서 수행함으로써 고효율성과 고해상도 이미지로의 확장성을 확보한다.

실험 결과

연구 질문

RQ1사전에 훈련된 생성 모델을 사용해 새로운 속성 조합을 제로샷으로 조합할 수 있는 제어 가능한 이미지 생성이 가능한가?
RQ2잠재공간에서 ODE 솔버를 통한 샘플링이 기존 랭지에르 동역학 대비 속도, 안정성, 이미지 품질 측면에서 뛰어나게 되는가?
RQ3다른 속성에 대한 에너지 함수를 논리 연산을 통해 조합하여 새로운 사실적인 이미지 구성이 생성 가능한가?
RQ4조건부 샘플링 및 순차적 편집 작업에서 제안된 방법이 최신 기술 수준의 베이스라인과 비교해 어떻게 성능을 내는가?
RQ5이 방법은 복잡한 속성 제어를 갖는 고해상도(1024×1024) 사실적인 이미지 생성에 얼마나 일반화 가능한가?

주요 결과

LACE는 FFHQ 데이터셋에서 StyleFlow 대비 25배 빠른 훈련 속도를 기록하여 뚜렷한 효율성 향상을 입증한다.
CIFAR-10에서 LACE 샘플링은 픽셀 공간 기반 EBM 및 스코어 기반 모델 대비 각각 최소 49배, 876배 빠르며, 64장의 배치당 추론 시간이 0.50초이다.
CIFAR-10에서 LACE는 Fréchet Inception Distance(FID) 6.63과 속성 일致성 점수(ACC) 0.972를 기록하여 LACE-LD 및 기타 베이스라인을 초월한다.
LACE는 희귀한 얼굴 속성 조합과 같은 새로운 속성 조합의 제로샷 생성을 높은 시각적 정확도로 가능하게 한다.
ODE 기반 샘플링은 하이퍼파ram터에 대해 강건하다: 작은 절대 및 상대 오차 허용 범위(atol, rtol)가 일관되게 고품질 샘플을 생성하며, 랭지에르 동역학이 FID-ACC 간의 상충 관계를 겪는 것과는 대조된다.
간단한 오일러 방법을 사용하더라도 LACE는 합리적인 성능(FID 5.36–6.31)을 유지하여 다양한 수치적 솔버에서도 ODE 수식의 안정성을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.