QUICK REVIEW

[論文レビュー] AnyDoor: Zero-shot Object-level Image Customization

Xi Chen, Lianghua Huang|arXiv (Cornell University)|Jul 18, 2023

Generative Adversarial Networks and Image Synthesis被引用数 11

ひとこと要約

AnyDoorは拡散ベースのシステムで、 IdentityとDetail Features をエンコードしてユーザー指定のシーン位置へターゲットオブジェクトをゼロショットでテレポートします。事前学習済み拡散モデルにそれらを注入することで、ビデオと画像データの双方で訓練され、堅牢な一般化を実現します。

ABSTRACT

This work presents AnyDoor, a diffusion-based image generator with the power to teleport target objects to new scenes at user-specified locations in a harmonious way. Instead of tuning parameters for each object, our model is trained only once and effortlessly generalizes to diverse object-scene combinations at the inference stage. Such a challenging zero-shot setting requires an adequate characterization of a certain object. To this end, we complement the commonly used identity feature with detail features, which are carefully designed to maintain texture details yet allow versatile local variations (e.g., lighting, orientation, posture, etc.), supporting the object in favorably blending with different surroundings. We further propose to borrow knowledge from video datasets, where we can observe various forms (i.e., along the time axis) of a single object, leading to stronger model generalizability and robustness. Extensive experiments demonstrate the superiority of our approach over existing alternatives as well as its great potential in real-world applications, such as virtual try-on and object moving. Project page is https://damo-vilab.github.io/AnyDoor-Page/.

研究の動機と目的

画像でのゼロショットかつアイデンティティを保つオブジェクト移動の必要性を動機づける。
ディテールマップとアイデンティティトークンを用いたターゲットオブジェクトの表現を提案し、拡散ベースの構成をガイドする。
ビデオ由来の外観変動と大規模な画像データを活用して頑健で汎用的なモデルを訓練する。
推論時に個別オブジェクトの微調整を必要とせず、高忠実度で多様なオブジェクト移動を実現する。

提案手法

背景を除去した後、自己教師付きエンコーダ（DINO-V2）からのアイデンティティトークンでターゲットオブジェクトを表現する。
ソーベルベースのハイパスフィルタとコラージュ風アプローチによって高周波のディテールマップを生成し、質感を保存しつつ変動を許容する。
IDトークンとディテールマップをStable Diffusionにクロスアテンション（ID）と特徴連結（ディテール）を介してガイダンス的に注入する。
ペアになったビデオフレーム（同じオブジェクトが異なるシーンにある場面）と多様な画像を用いて外観とシーンの変化を捉える。
ビデオデータのポーズ/構造と画像データのテクスチャをバランスさせるため、適応的なタイムステップサンプリングを使用する。
推論時にはシーン領域を切り取りリサイズし、任意のアスペクト比と領域サイズに対応するためのズームイン戦略を適用する。

実験結果

リサーチクエスチョン

RQ1ゼロショットの拡散ベース生成は、シーン内での配置の柔軟性を保ちながらオブジェクトの同一性を保持できるか？
RQ2ディテール機能でアイデンティティ表現を豊かにすることは、局所的な編集におけるID一貫性と質感の忠実度を向上させるか？
RQ3ビデオ由来の外観変動と画像の多様性を組み合わせることで、未見のオブジェクト-シーンの組み合わせへの一般化が向上するか？
RQ4適応的な訓練戦略がマルチモーダルデータを活用してオブジェクト移動のリアリズムと整合性を高めるにはどうするか？

主な発見

モデル	品質	忠実度	多様性
Paint-by-Example [ 56 ]	2.71	2.10	3.04
Graphit [ 21 ]	2.65	2.11	2.84
AnyDoor (ours)	3.04	3.06	2.88

AnyDoorはユーザースタディにおいて、参照ベースの手法よりも高い忠実度とアイデンティティの保持を示す（Quality/Fidelity/Diversityの指標でAnyDoorが有利）。
ヘッド・トゥ・ヘッドのユーザースタディでは、AnyDoorがFidelityとQualityでPaint-by-ExampleとGraphitを上回り、多様性も競争力を持つ。
アブレーション研究により、DINO-V2の使用、高周波ディテールマップ、適応的タイムステップサンプリングのそれぞれが、ターゲットオブジェクトへのCLIPおよびDINO類似性の向上に寄与することが示された。
AnyDoorはマルチサブジェクトの構成と、個別オブジェクトの調整なしでの仮想試着やオブジェクト移動/入れ替えといった実用的な応用を可能にする。
DreamBooth由来のベンチマーク上での定性的・定量的評価は、オブジェクト同一性の保持とシーンの調和の改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。