[論文レビュー] ReVersion: Diffusion-Based Relation Inversion from Images
One or two sentence direct-answer summary
Diffusion models gain increasing popularity for their generative capabilities. Recently, there have been surging needs to generate customized images by inverting diffusion models from exemplar images, and existing inversion methods mainly focus on capturing object appearances (i.e., the "look"). However, how to invert object relations, another important pillar in the visual world, remains unexplored. In this work, we propose the Relation Inversion task, which aims to learn a specific relation (represented as "relation prompt") from exemplar images. Specifically, we learn a relation prompt with a frozen pre-trained text-to-image diffusion model. The learned relation prompt can then be applied to generate relation-specific images with new objects, backgrounds, and styles. To tackle the Relation Inversion task, we propose the ReVersion Framework. Specifically, we propose a novel "relation-steering contrastive learning" scheme to steer the relation prompt towards relation-dense regions, and disentangle it away from object appearances. We further devise "relation-focal importance sampling" to emphasize high-level interactions over low-level appearances (e.g., texture, color). To comprehensively evaluate this new task, we contribute the ReVersion Benchmark, which provides various exemplar images with diverse relations. Extensive experiments validate the superiority of our approach over existing methods across a wide range of visual relations. Our proposed task and method could be good inspirations for future research in various domains like generative inversion, few-shot learning, and visual relation detection.
研究の動機と目的
- Relation Inversionの新たな問題を研究する:共通の関係がエ exemplar images に共存する。
- 凍結された事前学習済み拡散モデルのテキスト埋め込み空間で関係プロンプトを学習する。
- 関係プロンプトを物体の外観から分離し、柔軟な関係駆動の画像合成を可能にする。
- 関係 inversion を総合的に評価する ReVersion Benchmark を提案する。
提案手法
- 関係プロンプトをテキスト埋め込み空間の関係密集サブ空間へ導くように手掛かりを与える前置詞事前分布を導入する。
- 基底前置詞へ関係プロンプトを引き寄せ、非前置詞語から離すような関係操作型対比学習スキームを開発する。
- 外観漏れを防ぐため exemplar object descriptions を含む改善されたネガティブを使用する。
- デノイジングのため高ノイズレベルへ拡散タイムステップを歪めて高レベルの相互作用を強調する関係焦点重要度サンプリングを適用する。
- steer loss とノイズ韌性デノイジング loss を結合した joint objective で関係プロンプトを最適化する。
実験結果
リサーチクエスチョン
- RQ1共通の関係を共有する exemplar images から学習された関係プロンプトを用いて、新たな物体を含む新しい場面を生成できるか?
- RQ2前置詞ベースの事前分布と対比的 steering を組み込むことで、外観からの分離を保ちながら高レベルの関係抽出を改善できるか?
- RQ3関係焦点重要度サンプリングは拡散ベースの inversion 中に高レベルの相互作用へ焦点を強化するか?
- RQ4学習済みの関係プロンプトは新しいエンティティや背景へどの程度一般化するか?
- RQ5提案された ReVersion の各コンポーネントは、生成画像の関係とエンティティの精度にどのような影響を与えるか?
主な発見
- このフレームワークは、抽出された関係を介してエンティティが相互作用する新しい場面を生成できる関係プロンプトを学習する。
- 前置詞事前分布と関係 steering は、外観からの関係の分離を改善し、 exemplar エンティティからの漏れを減少させる。
- 関係焦点重要度サンプリングは高レベルの相互作用へ最適化を偏らせ、関係の精度とエンティティの信頼性を向上させる。
- 定性的および定量的評価は、ベースラインのテキストツーイメージ生成とテキスト inversions に対して関係 inversion タスクで優位性を示す。
- 専用の ReVersion Benchmark は、多様な exemplar 画像とテンプレートを提供し、関係 inversion タスクを評価する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。