[論文レビュー] ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation
ImageBrush は、外部言語を使うことなく、見本となる視覚指示のペアとクエリ画像を用いて exemplar-based image manipulation を実行する拡散ベースのフレームワークを提示します。潜在空間で視覚的プロンプトエンコーダーと境界ボックスプロンプトを用いて漸進的にインペイントします。
While language-guided image manipulation has made remarkable progress, the challenge of how to instruct the manipulation process faithfully reflecting human intentions persists. An accurate and comprehensive description of a manipulation task using natural language is laborious and sometimes even impossible, primarily due to the inherent uncertainty and ambiguity present in linguistic expressions. Is it feasible to accomplish image manipulation without resorting to external cross-modal language information? If this possibility exists, the inherent modality gap would be effortlessly eliminated. In this paper, we propose a novel manipulation methodology, dubbed ImageBrush, that learns visual instructions for more accurate image editing. Our key idea is to employ a pair of transformation images as visual instructions, which not only precisely captures human intention but also facilitates accessibility in real-world scenarios. Capturing visual instructions is particularly challenging because it involves extracting the underlying intentions solely from visual demonstrations and then applying this operation to a new image. To address this challenge, we formulate visual instruction learning as a diffusion-based inpainting problem, where the contextual information is fully exploited through an iterative process of generation. A visual prompting encoder is carefully devised to enhance the model's capacity in uncovering human intent behind the visual instructions. Extensive experiments show that our method generates engaging manipulation results conforming to the transformations entailed in demonstrations. Moreover, our model exhibits robust generalization capabilities on various downstream tasks such as pose transfer, image translation and video inpainting.
研究の動機と目的
- エグゼンプルデモンストレーションから視覚指示を学習することにより、クロスモーダルな言語を用いずに忠実な画像操作の課題に取り組む。
- 見本間および見本内の関係を理解し、新しいクエリ画像に編集を適用できる拡散ベースのフレームワークを開発する。
- モダリティギャップを縮小し、実世界の状況での利用可能性を高めるために、言語プロンプトへの依存を排除する。
- 高レベルの人間の意図を捉えるために、視覚プロンプトエンコーダーと境界ボックスのインタラクティビティを提案する。
- ポーズ転送、画像翻訳、ビデオインペインティングなどの下流タスクへの一般化を示す。
提案手法
- E, E′, I, および空白の M を連結したグリッド状入力内で、見本ベースの操作を漸進的なインペイントとして定式化し、E, E′, I, I′ を反復的に回復する。
- 潜在空間の拡散モデル(Latent Diffusion Model)を UNet バックボーンとクロスアテンションを用いて、視覚的プロンプトの文脈を注入する。
- 共有視覚エンコーダ e_v とプロンプトエンコーダ e_p を備えた視覚プロンプトモジュールを導入し、プロンプトから高レベルの意味的文脈を抽出する。中間ブロックのクロスアテンションを介してUNetに f_c を融合させる。
- bounding box エンコード e_b およびフーリエ埋め込みを介して関心領域プロンプトを組み込み、根拠のある特徴を作成する。GroundingDINO を用いた自動 ROI か、手動ボックスを許可する。
- スケールパラメータを伴う分類子不要ガイダンスを採用し、生成を指示に整合した編集へと誘導する。
- 指示学習中にユーザーの焦点を捉え、より豊かな人間の意図理解を可能にする境界ボックスベースのインターフェースを採用する。

実験結果
リサーチクエスチョン
- RQ1言語信号なしで視覚的見本だけで画像操作を導くことができ、かつユーザーの意図を忠実に反映することができるか?
- RQ2拡散ベースのモデルは、コンテキスト内の視覚指示をどのように活用して新しいクエリ画像に対して見本ベースの編集を行えるか?
- RQ3画像編集の視覚プロンプトフレームワークに高レベルの意味論とユーザー指定領域を組み込む効果的な仕組みは何か?
- RQ4見本ベースの視覚指示は、画像翻訳、ポーズ転送、ビデオインペインティングなどのタスクを跨いで一般化するか?
主な発見
| 手法 | Scannet | LRW (Edge) | LRW (Mask) | UBC-Fashion | DAVIS |
|---|---|---|---|---|---|
| TSAM | - | - | - | - | 86.84 |
| CoCosNet | 19.49 | 15.44 | 14.25 | 38.61 | - |
| ImageBrush | 9.18 | 9.67 | 8.95 | 12.99 | 18.70 |
- ImageBrush は、見本ペアとクエリ文脈で示された変換と整合する操作結果を達成する。
- 本手法は、実データセット上で見本ベースの画像翻訳、ポーズ転送、ビデオインペインティングに対して堅牢な一般化を示す。
- 漸進的なデノイズと視覚プロンプトエンコーダを伴う拡散ベースのインペイントプロセスは、文脈の利用と編集忠実度を向上させる。
- 視覚プロンプトと境界ボックス ROI の統合は、人間の意図の追従と領域重視の編集を著しく改善する。
- マルチタスクの実データセットで、ImageBrush は方向性の一貫性と画像類似性指標で基準法を上回り、単一モデルでタスクを横断して競争力のある結果を達成する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。