QUICK REVIEW

[論文レビュー] Diffusion Self-Guidance for Controllable Image Generation

Dave Epstein, Allan Jabri|arXiv (Cornell University)|Jun 1, 2023

Music and Audio Processing被引用数 42

ひとこと要約

tldr: 私たちは自己ガイダンスを導入します。内部拡散モデル表現を用いて、サンプリング中にオブジェクトの形状、位置、外観を追加の学習やモデルなしで制御するゼロショット手法です。

ABSTRACT

Large-scale generative models are capable of producing high-quality images from detailed text descriptions. However, many aspects of an image are difficult or impossible to convey through text. We introduce self-guidance, a method that provides greater control over generated images by guiding the internal representations of diffusion models. We demonstrate that properties such as the shape, location, and appearance of objects can be extracted from these representations and used to steer sampling. Self-guidance works similarly to classifier guidance, but uses signals present in the pretrained model itself, requiring no additional models or training. We show how a simple set of properties can be composed to perform challenging image manipulations, such as modifying the position or size of objects, merging the appearance of objects in one image with the layout of another, composing objects from many images into one, and more. We also show that self-guidance can be used to edit real images. For results and an interactive demo, see our project page at https://dave.ml/selfguidance/

研究の動機と目的

テキストプロンプトを超える大規模な拡散生成画像をより高度に制御できるよう動機付け、可能にする。
内部表現（活性化とアテンション）を抽出して、追加のモデルや監視なしにサンプリングを導くことができることを示す。
単純な特性の組み合わせを示して、複雑な画像操作や実画像編集を実現する。
拡散モデル自身の信号を用いて実画像を再構成・編集する方法を拡張する。

提案手法

自己ガイダンスを、拡散サンプリング中の中間活性化とアテンションマップへの制約として定義する。
サンプリングを導くために、アテンションチャネルと活性化からオブジェクト関連の特性を抽出する：位置、サイズ、形状、外観。
これらの特性の勾配（Eq. 4）を介してサンプリング更新を変更する目的ガイダンス項を定式化する。
具体的で計算可能な特性を導出する：オブジェクトのセントロイド（位置）、アテンションの和からのサイズ、しきい値処理された形状、形状と活性化由来の指標からの外観。
複数のガイダンス項を組み合わせて、オブジェクトを再配置、リサイズ、差し替え、再配置し、異なる画像からレイアウトと外観を混ぜる方法を示す。
中間のノイズ表現を用いてガイド付き拡散により実画像を再構成・編集することで、実画像編集を実演する。

実験結果

リサーチクエスチョン

RQ1内部拡散モデルの表現（アテンションと活性化）を用いて、オブジェクト属性のゼロショット制御を達成できるか？
RQ2モデル内部から導出される具体的な特性（位置、サイズ、形状、外観）は、意味のある、分離された編集を可能にするのか？
RQ3これらの特性をどう組み合わせて、レイアウト転送、外観転送、または複数画像の組成などの複雑な操作を実行できるのか？
RQ4中間拡散表現を活用して実画像を編集するために自己ガイダンスを拡張できるか？

主な発見

自己ガイダンスは、追加の訓練やモデルなしで、オブジェクトの位置、サイズ、形状、および外観を制御可能にする。
小さな特性セットを組み合わせることで、オブジェクトの移動、サイズ変更、外観の融合、レイアウトの画像間転送など、複雑な操作が可能になる。
この手法は、拡散モデルの内部から得られる計算されたレイアウトと外観を用いて、実画像の再構成と編集をサポートする。
アテンションマップから派生したガイダンス信号を用いて、オブジェクト間および画像間で形状と外観をコピーすることができ、クロス画像組成を可能にする。
制限として、アテンションチャネルの部分的なエンタングルメントと、複数のトークンを同時にガイダンスする際の外観漏れが時折生じる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。