QUICK REVIEW

[논문 리뷰] Diffusion Models already have a Semantic Latent Space

Mingi Kwon, Jaeseok Jeong|arXiv (Cornell University)|2022. 10. 20.

Generative Adversarial Networks and Image Synthesis인용 수 52

한 줄 요약

이 논문은 Asyrp를 도입한다. 이는 프리트레인된 확산 모델을 고정된 상태로 두고 시멘틱 잠재 공간(h-space)을 발견하는 비대칭 역과정으로, 제어 가능하고 품질이 높으며 데이터셋 일반화가 가능한 편집을 가능하게 한다. 이는 다양한 아키텍처와 데이터셋에서 h-space의 특성(균일성, 선형성, 견고성, 일관성)을 보여주고, 사용자 연구에서 DiffusionCLIP보다 우수한 성능을 보인다.

ABSTRACT

Diffusion models achieve outstanding generative performance in various domains. Despite their great success, they lack semantic latent space which is essential for controlling the generative process. To address the problem, we propose asymmetric reverse process (Asyrp) which discovers the semantic latent space in frozen pretrained diffusion models. Our semantic latent space, named h-space, has nice properties for accommodating semantic image manipulation: homogeneity, linearity, robustness, and consistency across timesteps. In addition, we introduce a principled design of the generative process for versatile editing and quality boost ing by quantifiable measures: editing strength of an interval and quality deficiency at a timestep. Our method is applicable to various architectures (DDPM++, iD- DPM, and ADM) and datasets (CelebA-HQ, AFHQ-dog, LSUN-church, LSUN- bedroom, and METFACES). Project page: https://kwonminki.github.io/Asyrp/

연구 동기 및 목표

돌해석 가능한 확산 모델의 시멘틱 편집의 필요성과 동기를 제시한다.
고정된 확산 모델에서 시멘틱 잠재 공간(h-space)을 밝히고 활용하기 위해 Asyrp를 제안한다.
정의적 편집 및 품질 향상을 위한 원리적 생성 과정을 정의하고 정량적 지표를 제시한다.
아키텍처(DPPM++, iDDPM, ADM)와 데이터셋(CelebA-HQ, AFHQ-dog, LSUN-church, LSUN-bedroom, MetFaces) 전반에 걸친 다양성을 시연한다.

제안 방법

x_t 방향으로의 진행을 유지하면서 예측 노이즈를 이동시켜 편집을 유도하는 비대칭 역과정을 도입한다(식 (6)).
노이즈 예측기의 병목 특징 h_t를 통해 편집을 제어하고 h-space를 형성하며, 도출된 Δh_t를 암시적 함수 f_t를 통해 적용하여 견고하고 빠른 학습을 가능하게 한다.
Δh_t를 출력하는 암시적 신경 방향 f_t(h_t)를 정의하여 시간 스텝과 샘플 전반에 걸친 신속하고 일반화 가능한 편집을 가능하게 한다.
편집이 목표 속성과 일치하도록 CLIP 기반 방향성 손실을 사용하고(식 7) 이미지 품질 변화를 정규화한다.
일정 구간(편집 t_edit, 품질향상 t_boost)을 기반으로 LPIPS 및 CLIP 기반 지표를 활용한 계량 가능한 간격 선택으로 Asyrp 편집, 기존 디노이징, 품질 향상의 3단계 생성 프로세스를 채택한다.
f_t를 보편화하기 위해 unseen한 타임스텝과 병목 특징에 대해 DDIM 스타일의 하위 시퀀스 가속을 활용한다.

실험 결과

연구 질문

RQ1고정된 사전 학습 확산 모델 내부에 파인튜닝 없이도 속성 편집을 가능하게 하는 시멘틱 잠재 공간이 존재할 수 있는가?
RQ2h-space가 신뢰하고 선형적이며 샘플 및 타임스텝 across를 견고하게 편집하려면 어떤 특성을 가져야 하는가?
RQ3이미지 품질을 보존하면서 다양한 속성 변화를 가능하게 하는 controllable 역 과정 및 편집 절차를 어떻게 설계할 수 있는가?
RQ4Asyrp의 편집은 아키텍처(DPPM++, iDDPM, ADM)와 데이터셋(CelebA-HQ, AFHQ-dog, LSUN-church, LSUN-bedroom, MetFaces) 전반에 걸쳐 일반화되는가?

주요 결과

h-space 편집은 균일하다: 같은 Δh_t가 이미지 간에 같은 속성 변화를 초래한다.
h-space 편집은 선형이다: Δh_t를 선형으로 스케일링하면 속성 변화도 선형적으로 스케일되며 음수 스케일도 가능하다.
h-space 편집은 이미지 품질을 보존한다: Δh_t의 변화가 이미지 품질을 저하시키지 않는다.
h-space 편집은 시간적으로도 일관된다: 특정 속성에 대해 Δh_t가 시간 스텝 전반에 걸쳐 대체로 일관된다.
Asyrp는 모델 파인튜닝 없이도 보지 못한 도메인과 속성에 대해 편집을 가능하게 하며, 여러 아키텍처와 데이터셋에서 일반화된다.
사용자 연구에서 Asyrp는 편집의 품질과 자연스러움에서 DiffusionCLIP보다 우수한 성능을 보였으며, 보지 않은 속성도 포함한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.