[論文レビュー] High-Resolution Image Synthesis with Latent Diffusion Models
潜在拡散モデル(LDMs)は、事前学習済みオートエンコーダを介して、知覚的に同等で低次元の潜在空間で拡散モデルを訓練し、計算資源を大幅に削減しつつ、テキストやレイアウトのための柔軟なクロスアテンション条件付けを可能にする高解像度画像合成を実現します。
By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism to control the image generation process without retraining. However, since these models typically operate directly in pixel space, optimization of powerful DMs often consumes hundreds of GPU days and inference is expensive due to sequential evaluations. To enable DM training on limited computational resources while retaining their quality and flexibility, we apply them in the latent space of powerful pretrained autoencoders. In contrast to previous work, training diffusion models on such a representation allows for the first time to reach a near-optimal point between complexity reduction and detail preservation, greatly boosting visual fidelity. By introducing cross-attention layers into the model architecture, we turn diffusion models into powerful and flexible generators for general conditioning inputs such as text or bounding boxes and high-resolution synthesis becomes possible in a convolutional manner. Our latent diffusion models (LDMs) achieve a new state of the art for image inpainting and highly competitive performance on various tasks, including unconditional image generation, semantic scene synthesis, and super-resolution, while significantly reducing computational requirements compared to pixel-based DMs. Code is available at https://github.com/CompVis/latent-diffusion .
研究の動機と目的
- 画素空間ではなく潜在空間で訓練およびサンプリングすることにより、拡散モデルの計算要求を低減する。
- 効率的なオートエンコーディングを通じて、 megapixel規模の合成を可能にしつつ高忠実度と細部を保持する。
- テキスト、セマンティックマップ、レイアウトなど、多様なマルチモーダル入力に対応するクロスアテンション条件付け拡散を導入する。
- 無条件・条件付・インペインティング・超解像タスクで競争力のあるまたは最新の結果を、再利用可能な事前訓練済みモデルとともに示す。
提案手法
- 制御されたダウンサンプリング因子 f を用いて低次元潜在空間 z = E(x) を学習する知覚的オートエンコーダを訓練する。x を z から再構成するデコーダ D を使用する。
- 目的 L_LDM = E_{E(x), ε ~ N(0,1), t}[||ε − ε_θ(z_t, t)||^2]、ここで z_t はステップ t におけるノイジーな潜在表現である。
- UNet のバックボーンをクロスアテンションで拡張し、τ_θ(y) というドメイン固有のエンコーダを介して生成をモダリティ y 上で条件付けし、テキスト、セマンティックレイアウト、その他の入力を可能にする。
- 画像データに適したCNNベースの2D畳み込みを活用しつつ、潜在空間で拡散を動作させる2段階のフレームワークを実装する。
- クロスアテンションベースの機構を通じて柔軟な条件付けを可能にし、テキストから画像、レイアウトから画像、その他のマルチモーダルタスクを実現する(品質を向上させるための分類器なしガイダンスを併用)。
- さまざまなタスク(無条件、テキストから画像、インペインティング、超解像)で再利用可能な事前訓練済み潜在エンコーダ/デコーダおよび LDM を提供する。
実験結果
リサーチクエスチョン
- RQ1学習済み潜在空間で動作する拡散モデルが、訓練およびサンプリングコストを削減しつつ、ピクセル空間の拡散品質に匹敵できるか?
- RQ2クロスアテンション条件付けは、潜在拡散内で堅牢なマルチモーダル生成(テキスト、レイアウト、セマンティックマップ)を可能にするか?
- RQ3知覚的圧縮(潜在ダウンサンプリング係数 f)が、高解像度タスクにおける合成品質と効率性にどう影響するか?
- RQ4LDMは高解像度で無条件生成、テキストから画像、インペインティング、超解像の各タスクにおいて競争力のある、または最先端の結果を提供できるか?
- RQ5事前訓練済みの潜在オートエンコーダは、異なる拡散モデルやタスク間で再利用可能か?
主な発見
- 学習済み潜在空間における潜在拡散は、ピクセル空間の拡散よりはるかに低い計算量で高解像度の強力な合成を生む。
- 無条件LDMは CelebA-HQ、FFHQ、LSUN-Churches、LSUN-Bedrooms、および ImageNet-class conditions で、より少ないパラメータと訓練リソースで最先端または競争力のあるFIDと精度/リコールを達成する。
- クロスアテンション条件付けは、テキストから画像、レイアウトから画像、セマンティック合成を効果的に可能にし、比較対象のARや拡散ベースのベースラインより少ないパラメータで MS-COCO テキストから画像の結果でも競争力を発揮。
- LDM-SR(超解像)は強力なFIDと知覚品質を示し、しばしSR3をFIDで上回りつつ知覚指標でも競争力を維持する。ユーザー調査はLDMベースの出力を支持する。
- 潜在空間での畳み込みサンプリングにより、ピクセル空間の拡散手法より一貫した品質でメガピクセル規模までの画像生成が可能になり、サンプルスループットが向上する。
- 総じて、LDMは複数の高解像度画像合成タスクにおいて忠実度を犠牲にすることなく計算要求を削減する、柔軟で再利用可能なフレームワークを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。