QUICK REVIEW

[論文レビュー] LayoutDiffuse: Adapting Foundational Diffusion Models for Layout-to-Image Generation

Jiaxin Cheng, Xiao Liang|arXiv (Cornell University)|Feb 16, 2023

Generative Adversarial Networks and Image Synthesis被引用数 13

ひとこと要約

LayoutDiffuse は新規な layout-attention アダプターと task-adaptive prompts を用いた pretrained diffusion model の微調整により、レイアウト条件付きのレイアウト→画像生成を実現。データとトレーニング効率で最先端の結果を達成。

ABSTRACT

Layout-to-image generation refers to the task of synthesizing photo-realistic images based on semantic layouts. In this paper, we propose LayoutDiffuse that adapts a foundational diffusion model pretrained on large-scale image or text-image datasets for layout-to-image generation. By adopting a novel neural adaptor based on layout attention and task-aware prompts, our method trains efficiently, generates images with both high perceptual quality and layout alignment, and needs less data. Experiments on three datasets show that our method significantly outperforms other 10 generative models based on GANs, VQ-VAE, and diffusion models.

研究の動機と目的

事前学習済み拡散モデルを活用した、制御可能でスケーラブルなタスクとしてレイアウト-to-画像生成を動機づける。
基盤となるDMをレイアウト条件付けへ適応させるデータ効率の良い微調整戦略を開発する。
大規模な再学習なしで効果的な条件付けを実現するため、layout attention と task-adaptive prompts の2つのアダプターを導入する。
複数データセット（COCO Stuff、Visual Genome、CelebA-Mask）において、知覚品質とレイアウト整合性の高い性能を示す。

提案手法

画像/テキストデータで事前学習済みの latent diffusion model (LDM) ボトムを採用する。
レイアウトアテンション層を残差ブロックとして追加し、インスタンス内の自己注意に焦点を当てる。
学習可能なクラス埋め込みを介してインスタンスプロンプトを組み込み、オブジェクト領域をマークする。
QKV注意のキー/バリューに追加されたタスク適応プロンプトを導入し、layout-to-imageタスクを信号する。
微調整開始時の事前学習済み挙動を保持するため、アダプターはゼロ初期化を維持する。
CFGとnull conditioningを用いて、境界ボックスとセグメンテーションマスクの条件付けを有効にする。

実験結果

リサーチクエスチョン

RQ1軽量なアダプターを用いて、事前学習済み拡散モデルをレイアウト-to-画像生成へ効率的に適応できるか。
RQ2インスタンス重視のlayout attentionとタスク適応プロンプトは、従来法と比較してレイアウト忠実度と画像品質を改善するか。
RQ3このアプローチはデータ効率が高く、複数データセットでより少ない学習サンプルとエポックで強い結果を達成するか。
RQ4bounding-box および mask ベースのレイアウトにおいて、LayoutDiffuseはGANベース、VQ-VAEベース、および拡散ベースのベースラインとどのように比較されるか。

主な発見

LayoutDiffuse は COCO Stuff および Visual Genome における bounding-box レイアウト-to-image 生成で最先端の結果を達成する。
本手法は CAS や Inception Score が向上し、画像品質とレイアウト忠実度に対するユーザーの好みも向上する。
CelebA-Mask での mask-to-image 生成でも優れた性能を示し、競合する拡散モデルより少ない学習エポックで済む。
アブレーションにより、インスタンス認識型の layout attention と task-adaptive prompts が FID および YOLOベースのレイアウト認識性を向上させることが、特に初期トレーニングで示される。
微調整の効率性を示す：ベースラインよりはるかに少ないエポックとデータで同等または上の性能。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。