QUICK REVIEW

[論文レビュー] InstructPix2Pix: Learning to Follow Image Editing Instructions

Tim Brooks, Aleksander Holynski|arXiv (Cornell University)|Nov 17, 2022

Multimodal Machine Learning Applications被引用数 40

ひとこと要約

拡散に基づくモデルが、人が書いた指示から画像を編集する方法を、GPT-3とStable Diffusionから生成された大規模な合成ペアデータセットを用いて学習することにより、実例ごとのファインチューニングなしで実画像のゼロショット編集を実現できる。

ABSTRACT

We propose a method for editing images from human instructions: given an input image and a written instruction that tells the model what to do, our model follows these instructions to edit the image. To obtain training data for this problem, we combine the knowledge of two large pretrained models -- a language model (GPT-3) and a text-to-image model (Stable Diffusion) -- to generate a large dataset of image editing examples. Our conditional diffusion model, InstructPix2Pix, is trained on our generated data, and generalizes to real images and user-written instructions at inference time. Since it performs edits in the forward pass and does not require per example fine-tuning or inversion, our model edits images quickly, in a matter of seconds. We show compelling editing results for a diverse collection of input images and written instructions.

研究の動機と目的

自然言語の指示に基づいて画像を編集できるシステムを、完全な画像説明ではなく動機づける。
事前学習済みモデルから大規模なマルチモーダル訓練データを生成することで、データ不足のボトルネックに対処する。
1つのフォワードパスで広範な編集を適用できる拡散ベースのエディタを、個別の例ごとのファインチューニングなしで開発する。

提案手法

小規模な人間作成データセットでGPT-3をファインチューニングし、それをLAIONのキャプションに適用して、入力キャプション、編集指示、出力キャプションの大規模なペアデータセットを作成する。
CaptionペアをStable DiffusionのPrompt-to-Promptを用いて、編集間で視覚的一貫性を促進するように画像ペアへ変換する。
入力画像と編集指示の両方を条件付けした潜在拡散モデル(InstructPix2Pix)を訓練し、フォワードパス編集を実行する。
2つの条件ストリーム（入力画像 cI と指示 cT）を用いた分類子フリーガイダンスを適用し、入力への忠実度と指示への適合をバランスさせるためにガイダンス重み sI と sT を調整する。
事前学習済みのStable Diffusionチェックポイントからエディタを初期化し、入力にエンコードされた入力画像用のチャネルを追加して拡張する。
CLIPベースの方向性類似度で生成画像ペアをフィルタリングしてデータ品質を向上させる。

Figure 2 : Our method consists of two parts: generating an image editing dataset, and training a diffusion model on that dataset. (a) We first use a finetuned GPT-3 to generate instructions and edited captions. (b) We then use StableDiffusion [ 52 ] in combination with Prompt-to-Prompt [ 17 ] to gen

実験結果

リサーチクエスチョン

RQ1拡散ベースのエディタは、合成マルチモーダル訓練データを用いて自然言語編集指示に従うことを学べるか。
RQ2入力画像と編集指示という2つの条件付けを分類子フリーガイダンスと組み合わせると、編集の忠実度と指示の遵守にはどのような影響があるか。
RQ3データセットサイズとフィルタリングが、より大きく、あるいはより複雑な編集をモデルが実行する能力に与える影響は何か。
RQ4推論時に、モデルは実画像と人間が書いた指示にどれくらい一般化できるか。
RQ5データ駆動の合成訓練パイプラインで編集指示に従う際の主な制限とバイアスは何か。

主な発見

モデルは、実画像と人間が書いた指示に対して、個別の例ごとのファインチューニングなしでゼロショット一般化を達成する。
約454kの生成編集データセットは、スタイル変更、背景差し替え、物体の変更など多様な編集を可能にする。
2条件の分類子フリーガイダンスは、入力画像への忠実度と指示への遵守のバランスを取ることを可能にし、sT が約5–10、sI が約1–1.5 で強い結果を得られる。
SDEditやText2Liveと比較して、InstructPix2Pix は入力画像の一貫性をより多く保持しつつ、指示に導かれた明確な編集を実現する。
アブレーションは、より大きな訓練データと CLI P フィルタリングが、より大きな編集を実行し画像の一貫性を維持する能力を向上させることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。