Skip to main content
QUICK REVIEW

[論文レビュー] Inst-Inpaint: Instructing to Remove Objects with Diffusion Models

Ahmet Burak Yildirim, Vedat Baday|arXiv (Cornell University)|Apr 6, 2023
Generative Adversarial Networks and Image Synthesis被引用数 18
ひとこと要約

Inst-Inpaint は拡散ベースのフレームワークで、ユーザー描画マスクを必要とせず、自然言語指示のみに基づいて画像からオブジェクトを削除し、GQA-Inpaint データセットで訓練されています。

ABSTRACT

Image inpainting task refers to erasing unwanted pixels from images and filling them in a semantically consistent and realistic way. Traditionally, the pixels that are wished to be erased are defined with binary masks. From the application point of view, a user needs to generate the masks for the objects they would like to remove which can be time-consuming and prone to errors. In this work, we are interested in an image inpainting algorithm that estimates which object to be removed based on natural language input and removes it, simultaneously. For this purpose, first, we construct a dataset named GQA-Inpaint for this task. Second, we present a novel inpainting framework, Inst-Inpaint, that can remove objects from images based on the instructions given as text prompts. We set various GAN and diffusion-based baselines and run experiments on synthetic and real image datasets. We compare methods with different evaluation metrics that measure the quality and accuracy of the models and show significant quantitative and qualitative improvements.

研究の動機と目的

  • 削除対象がバイナリマスクではなくテキストプロンプトによって定義される、指示に基づく画像インペインティングを動機づける。
  • シーングラフ駆動のプロンプトを用いた実画像データセット(GQA-Inpaint)を作成し、オブジェクト削除を行う。
  • テキストプロンプトを用いて画像からオブジェクトを削除する、単一段階の条件付き拡散モデル(Inst-Inpaint)を開発する。
  • 新規の CLIP ベースのインペインティングスコアを含む指標で、ベースラインと比較して評価する。
  • 最先端のテキストベースのインペインティング手法と比較して、定量的および定性的な改善を示す。

提案手法

  • 明示的なマスクを必要とせず、画像とテキスト指示を受け取り、参照されたオブジェクトを削除するエンドツーエンドの潜在拡散モデル(Inst-Inpaint)を提案する。
  • GQA のシーングラフを活用して GQA-Inpaint データセットを構築し、Detectron2 および Detic でセグメンテーションマスクを取得し、シーンの関係からテキスト削除プロンプトを生成する。
  • 2 段階の設定で 2 つの Inst-Inpaint モデルを訓練する:固定された第1段エンコーダ(GQA-Inpaint は VQGAN ベース、CLEVR は KL 正則化オートエンコーダ)と、ソース画像とテキストを連結とクロスアテンションで統合する第2段の条件付き LDM。
  • ソース画像とテキストプロンプトを条件とした潜在コードに対して潜在拡散目的を用いる。
  • データセット生成パイプラインで CRFill によるインペインティング前に CascadePSP refinement やマスク拡張などの前処理を適用する。
Figure 1 : Instructional Image Inpainting. We propose a new image inpainting method, Inst-Inpaint , which takes an image and a textual instruction as input and is able to automatically remove objects mentioned in the text, without any need for a user-supplied binary mask to locate the region of inte
Figure 1 : Instructional Image Inpainting. We propose a new image inpainting method, Inst-Inpaint , which takes an image and a textual instruction as input and is able to automatically remove objects mentioned in the text, without any need for a user-supplied binary mask to locate the region of inte

実験結果

リサーチクエスチョン

  • RQ1推論時にバイナリマスクを要求せず、指示駆動の拡散モデルが実画像からオブジェクトを削除できるか?
  • RQ2実画像と合成データセットで、テキスト条件付きインペインティングモデルは、マスクベースおよび他のテキストベースのベースラインと比較してどの程度性能を発揮するか?
  • RQ3指示ガイド付き編集における削除精度とリアリズムと CLIP ベースのインペインティングスコアリングが相関するか?

主な発見

手法FID ↓CLIP 分布 ↑CLIP 精度 ↑CLIP 精度 (上位5) ↑RelSim ↑マスク IoU ↑
X-Decoder6.36072.262.641.5--
InstPix2Pix9.97256.833.511.8--
CLIPSeg8.04871.757.433.5--
Inst-Inpaint (Ours)5.67976.077.457.3--
  • Inst-Inpaint は GQA-Inpaint で競合法より低い FID スコアと高い CLIP ベース指標を達成する。
  • 本モデルは、注意マップがターゲットオブジェクトに焦点を合わせることを示すように、指示されたオブジェクトを注意喚起し削除する高い能力を示す。
  • CLEVR では、Inst-Inpaint が GAN ベースのベースラインを上回り、合成データでも指示条件付き編集が効果的であることを示す。
  • Instruct X-Decoder および ClipSeg と比較して、注意マップ上で単純な UNet を用いた場合のマスク予測精度が向上する(IoU スコアは Table III に示す)。
  • この手法は定性的・定量的改善をもたらし、報告された結果表は多くのケースで CLIP 精度と関係性の整合性が優れていることを示している。
Figure 2 : The proposed GQA-Inpaint dataset and our Inst-Inpaint method. Our work involves initially generating a dataset for the proposed instructional image inpainting task. To create input/output pairs, we utilize the images and their scene graphs that exist in the GQA dataset [ 18 ] . (a) We fir
Figure 2 : The proposed GQA-Inpaint dataset and our Inst-Inpaint method. Our work involves initially generating a dataset for the proposed instructional image inpainting task. To create input/output pairs, we utilize the images and their scene graphs that exist in the GQA dataset [ 18 ] . (a) We fir

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。