[論文レビュー] In-Context Learning Unlocked for Diffusion Models
Prompt Diffusionは、六つのタスクで訓練された vision-language プロンプトを介して拡散モデルベースの生成モデルにおける文脈内学習を実現し、見たことのないタスクの一般化とテキスト指示による編集を可能にする。
We present Prompt Diffusion, a framework for enabling in-context learning in diffusion-based generative models. Given a pair of task-specific example images, such as depth from/to image and scribble from/to image, and a text guidance, our model automatically understands the underlying task and performs the same task on a new query image following the text guidance. To achieve this, we propose a vision-language prompt that can model a wide range of vision-language tasks and a diffusion model that takes it as input. The diffusion model is trained jointly over six different tasks using these prompts. The resulting Prompt Diffusion model is the first diffusion-based vision-language foundation model capable of in-context learning. It demonstrates high-quality in-context generation on the trained tasks and generalizes effectively to new, unseen vision tasks with their respective prompts. Our model also shows compelling text-guided image editing results. Our framework aims to facilitate research into in-context learning for computer vision. We share our code and pre-trained models at https://github.com/Zhendong-Wang/Prompt-Diffusion.
研究の動機と目的
- NLPを超えるビジョンタスクにおける文脈内学習の必要性を動機づける。
- タスクの例とクエリを結びつけるビジョン言語プロンプト設計を提案する。
- Prompt Diffusionを、拡散ベースのビジョン言語ファウンデーションモデルとして開発する。
- 未知のタスクへの文脈内学習と一般化を実証する。
- テキスト指示による画像編集の可制御能力を示す。
提案手法
- テキストガイダンスのエンコード、例対 (image1 -> image2)、画像クエリ (image3) を含むマルチモーダル vision-language プロンプトを導入して、ターゲット画像 image4 を生成する。
- Vision-languageプロンプトを受け付けるように ControlNet および Stable Diffusion アーキテクチャを適応させて Prompt Diffusion を構築する。
- Stable Diffusion v1.5 のチェックポイントから六つの vision-language タスク(前方3件、逆向き3件)で Prompt Diffusion をファインチューニングする。
- 複数ドメインにわたる文脈内学習を促進するため、プロンプトのランダムサンプリングでタスク間で共同学習を行う。
- 訓練時にテキストガイダンス dropoutを10%適用して分類子なしガイダンスを用い、ロバスト性を向上させる。
- ゼロショットFIDを用いた逆タスクとRMSEを用いた前方タスクで定性的・定量的に評価する。
実験結果
リサーチクエスチョン
- RQ1 diffusionベースのモデルは単一の vision-language プロンプトから複数の vision-language タスクを実行することを学習できるか?
- RQ2ジョイントマルチタスクファインチューニングは、タスク固有のファインチューニングなしに未知の vision-language タスクへ一般化を可能にするか?
- RQ3テキストガイド付き編集はこのフレームワークのプロンプトを介して信頼性をもって制御できるか?
- RQ4Prompt Diffusionは訓練済みタスクでタスク固有のベースラインと比較してどうか、そして新しいタスクへの一般化はどの程度か?
主な発見
| 手法 | FID Depth-to-Image | FID Hed-to-Image | FID Seg-to-Image | RMSE Image-to-Depth | RMSE Image-to-Hed | RMSE Image-to-Seg |
|---|---|---|---|---|---|---|
| CN(FT) | 19.81 | 13.07 | 20.71 | 0.20 | 0.18 | 0.36 |
| Prompt Diffusion (ours) | 18.60 | 13.35 | 19.46 | 0.21 | 0.14 | 0.31 |
- Prompt Diffusionは訓練済みタスクの高品質な文脈内生成を実現し、プロンプトを介して未知タスクへ効果的に一般化する。
- 逆タスクでは、Prompt DiffusionはCN(FT)に対してゼロショットFIDで競合的を獲得する。
- 前方タスクでは、Prompt Diffusionは複数の指標でベースラインと同程度かそれより良いRMSEを実現する。
- モデルはテキストガイダンスと画像条件による可制御の画像編集をサポートする。
- 六タスクにまたがる jointly 練習は、タスク横断の対応関係および文脈内能力を学習するのに有効である。
- 定性的な結果は、スタイル転送やミスアラインドの例対などのタスクへの一般化を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。