[論文レビュー] SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
SDXLは、テキストから画像生成のための潜在拡散モデルを大幅に強化したもので、より大きな UNet、新しい条件付けスキーム、マルチアスペクト訓練、および洗練化段階を備え、従来の Stable Diffusion バージョンより顕著に人間の嗜好で優れた性能を示し、SOTA性能にも競合する。
We present SDXL, a latent diffusion model for text-to-image synthesis. Compared to previous versions of Stable Diffusion, SDXL leverages a three times larger UNet backbone: The increase of model parameters is mainly due to more attention blocks and a larger cross-attention context as SDXL uses a second text encoder. We design multiple novel conditioning schemes and train SDXL on multiple aspect ratios. We also introduce a refinement model which is used to improve the visual fidelity of samples generated by SDXL using a post-hoc image-to-image technique. We demonstrate that SDXL shows drastically improved performance compared the previous versions of Stable Diffusion and achieves results competitive with those of black-box state-of-the-art image generators. In the spirit of promoting open research and fostering transparency in large model training and evaluation, we provide access to code and model weights at https://github.com/Stability-AI/generative-models
研究の動機と目的
- 以前の Stable Diffusion バージョンと比べて、テキストから画像合成の画質とプロンプト遵守を改善する。
- アーキテクチャのスケーリングとマルチアスペクトのファインチューニングを通じて、高解像度出力を可能にする。
- 追加の監視を必要とせず、訓練データを活用するサイズとクロップの条件付けスキームを導入する。
- 洗練化拡散モデルによってアーチファクトを低減し、局所的なディテールを向上させる。
- 再現性のためにコードとモデルウェイトを提供することでオープン性を促進する。
提案手法
- より多くのアテンションブロックとより大きなクロスアテンションコンテキストを備え、UNet容量を2.6Bパラメータへと増加させる。
- 元画像の縦横をエンベディングしてタイムステップ埋め込みに注入することで、サイズ条件付けを導入する。
- 訓練時のランダムクロップアーティファクトを制御するため、Fourierで符号化されたクロップ座標を介してクロップ条件付けを追加する。
- 専用の条件付けを持つ異なるアスペクト比のビンでファインチューニングしてマルチアスペクト訓練を実施する。
- ノイズ付与・除去プロセス(SDEdit風)を用いて潜在空間に別個の洗練化モデルを訓練し、高周波ディテールを強化する。
- テキストエンコーダとして OpenCLIP ViT-bigG を CLIP ViT-L と組み合わせて使用し、前段出力を連結して条件付けとする。
- 別個の分類器を用いず、分類器フリーガイダンスを適用してプロンプトへ生成を誘導する。

実験結果
リサーチクエスチョン
- RQ1高解像度の画像合成における忠実度とプロンプト遵守を向上させるために、Stable Diffusion フレームワークをどのようにスケールさせられるか。
- RQ2潜在拡散モデルに追加できる条件付け戦略は、さまざまな訓練データサイズとアスペクト比をよりうまく活用できるか。
- RQ3潜在空間での事後洗練化段階は、外部監督を必要とせずに視覚品質を向上させるか。
- RQ4サイズ条件付けとクロップ条件付けは、大規模拡散モデルにおける生成品質とアーティファクト低減にどう影響するか。
- RQ5マルチアスペクト訓練は、さまざまな出力形状に対する性能にどう影響するか。
主な発見
- SDXLは画像品質とプロンプト遵守に関するユーザー調査で、従来の Stable Diffusion バージョンを大幅に上回る。
- 基礎SDXLを超える知覚的な画像忠実度をさらに改善する洗練化モデルが、評価で最も高いユーザー嗜好を達成。
- 再現性と透明性を支援するため、オープンソースのウェイトとコードが提供される。
- サイズ条件付けとクロップ条件付けは、訓練時のデータ損失とアーティファクトを減少させ、サンプル品質を向上させる。
- マルチアスペクト訓練は、さまざまなアスペクト比での生成を効果的に可能にし、重大な劣化を抑える。
- 定量的指標(FID/CLIP)は人間の判断と完全には一致しないため、基礎的なテキストから画像モデルには人間評価の重要性を強調している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。