QUICK REVIEW

[論文レビュー] Diffusion Models already have a Semantic Latent Space

Mingi Kwon, Jaeseok Jeong|arXiv (Cornell University)|Oct 20, 2022

Generative Adversarial Networks and Image Synthesis被引用数 52

ひとこと要約

本論文は Asyrp を提案する。凍結済み事前学習拡散モデル内に意味的潜在空間（h-space）を発見し、制御可能で高品質、データセット全般に一般化可能な属性編集を可能にする不対称リバース過程である。h-space の性質（均質性、線形性、ロバスト性、一貫性）をアーキテクチャおよびデータセットを横断して示し、ユーザー調査において DiffusionCLIP より優れている。

ABSTRACT

Diffusion models achieve outstanding generative performance in various domains. Despite their great success, they lack semantic latent space which is essential for controlling the generative process. To address the problem, we propose asymmetric reverse process (Asyrp) which discovers the semantic latent space in frozen pretrained diffusion models. Our semantic latent space, named h-space, has nice properties for accommodating semantic image manipulation: homogeneity, linearity, robustness, and consistency across timesteps. In addition, we introduce a principled design of the generative process for versatile editing and quality boost ing by quantifiable measures: editing strength of an interval and quality deficiency at a timestep. Our method is applicable to various architectures (DDPM++, iD- DPM, and ADM) and datasets (CelebA-HQ, AFHQ-dog, LSUN-church, LSUN- bedroom, and METFACES). Project page: https://kwonminki.github.io/Asyrp/

研究の動機と目的

拡散モデルには伝統的に意味的潜在空間が欠如している点を動機づける。
Asyrp を提案し、凍結済み拡散モデルに意味的潜在空間（h-space）を明らかにして活用する。
定量的指標を用いたエディットと品質向上の原理的生成過程を定義する。
アーキテクチャ（DDPM++, iDDPM, ADM）とデータセット（CelebA-HQ, AFHQ-dog, LSUN-church, LSUN-bedroom, MetFaces）を横断する多様性を実証する。

提案手法

予測ノイズを導くブ bottleneck features h_t を介して編集を制御し、編集を誘発するために予測ノイズをシフトする不対称な逆過程を導入する（式 6）。
編集を h-space を形成するノイズ予測器のボトルネック特徴 h_t を介して制御し、推定 delta h_t（Δh_t）を暗黙関数 f_t を通じて適用し、堅牢で高速な学習を実現する。
Δh_t を出力する暗黙のニューラル方向 f_t(h_t) を定義し、時刻ステップやサンプルを横断して迅速で一般化可能な編集を可能にする。
編集をターゲット属性に整合させつつ、画像品質の変化を正則化して保つための CLIP ベースの方向性損失を用いる（式 7）。
LPIPS および CLIP ベースの指標に基づく区間選択 t_edit, t_boost を持つ、編集（Asyrp）、従来のノイズ除去、品質向上の三段階生成過程を採用する。
未知の時刻ステップとボトルネック特徴へ f_t を一般化するために DDIM 風の subsequence 加速を活用する。

実験結果

リサーチクエスチョン

RQ1凍結済みの事前学習拄拡散モデルの内部に意味的潜在空間が存在し、ファインチューニングなしで属性編集を可能にできるか。
RQ2h-space は信頼性が高く、線形で、サンプルと時刻ステップを跨いだ編集をサポートするためにどのような性質を持つべきか。
RQ3画像品質を維持しつつ多様な属性変更を可能にする制御可能な逆過程と編集手順をどのように設計すべきか。
RQ4Asyrp はアーキテクチャ（DDPM++, iDDPM, ADM）とデータセット（CelebA-HQ, AFHQ-dog, LSUN-church, LSUN-bedroom, MetFaces）を跨いで一般化するか。
RQ5Asyrp はファインチューニング済みまたはガイダンスベースの手法と比較して、ユーザー調査および定量指標でどのように優れているか。

主な発見

h-space の編集は均質である：同じ Δh_t が画像間で同じ属性の変化をもたらす。
h-space の編集は線形である：Δh_t を線形に拡大・縮小すると属性の変化も線形にスケールする。たとえスケールが負であっても。
h-space の編集は画像品質を損なわない：Δh_t の変化は画像品質を低下させない。
h-space の編集は時刻に対して一貫性がある：特定の属性について Δh_t は時刻ステップ間で概ね一貫している。
Asyrp は未見のドメインや属性に対してもモデルのファインチューニングなしで編集を可能にし、複数のアーキテクチャとデータセットに跨って一般化する。
ユーザー調査では Asyrp が DiffusionCLIP よりも品質と自然さの点で優れていた。未見の属性を含む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。