[論文レビュー] DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation
DiffusionCLIPは、CLIPガイダンスでファインチューニングした拡散モデルを用いて、未知ドメインや複数属性変更を含む、堅牢でゼロショットのテキスト駆動画像操作を実現します。
Recently, GAN inversion methods combined with Contrastive Language-Image Pretraining (CLIP) enables zero-shot image manipulation guided by text prompts. However, their applications to diverse real images are still difficult due to the limited GAN inversion capability. Specifically, these approaches often have difficulties in reconstructing images with novel poses, views, and highly variable contents compared to the training data, altering object identity, or producing unwanted image artifacts. To mitigate these problems and enable faithful manipulation of real images, we propose a novel method, dubbed DiffusionCLIP, that performs text-driven image manipulation using diffusion models. Based on full inversion capability and high-quality image generation power of recent diffusion models, our method performs zero-shot image manipulation successfully even between unseen domains and takes another step towards general application by manipulating images from a widely varying ImageNet dataset. Furthermore, we propose a novel noise combination method that allows straightforward multi-attribute manipulation. Extensive experiments and human evaluation confirmed robust and superior manipulation performance of our methods compared to the existing baselines. Code is available at https://github.com/gwang-kim/DiffusionCLIP.git.
研究の動機と目的
- 多様な実画像に対して、GAN inversionの限界を超える堅牢なゼロショット画像操作を動機付ける。
- 拡散モデルの inversion と生成力を活用し、アイデンティティを保持しつつ内容を忠実に編集する。
- 未見のドメイン間での操作を可能にし、未見ドメイン間の翻訳を実現する。
- 単一のサンプリング過程で複数属性の操作を行うためのノイズ結合アプローチを導入する。
提案手法
- 入力画像を前方拡散(DDIM/ODEベース)により潜在ノイズへ写像するために、事前学習済みの拡散モデルを使用する。
- CLIPガイド付き損失を用いて逆拡散モデルをファインチューニングし、アイデンティティを保持しつつ属性を目標テキストへ誘導する。
- CLIP空間で画像とテキストの方向を整合させる方向性CLIP損失を採用し、望ましくない変化を防ぐアイデンティティ損失を補完する。
- ほぼ完璧な逆推定と制御された生成のために、決定論的な前方および逆方 DDIMサンプリングを活用する。
- 品質と速度のバランスを取るために、返戻ステップを用いた高速サンプリング戦略と前方/生成ステップの削減を導入する。
- サンプリング時に複数のファインチューニングモデルからのノイズを線形結合して、多属性転送を有効にする。
実験結果
リサーチクエスチョン
- RQ1拡散ベースの逆推定は、テキストプロンプトを用いて、インドメインおよびアウトオブドメインの実画像を忠実に操作できるか?
- RQ2本手法は未見ドメイン間の翻訳を実現し、ストロークや他の入力から未見ドメインの画像を合成できるか?
- RQ3複数のファインチューニングモデルからのノイズを組み合わせて、単一のサンプリング過程で多属性操作を実現できるか?
- RQ4再構成品質、速度、および属性制御のバランスを取る最適なサンプリングハイパーパラメータは何か?
主な発見
- DiffusionCLIPはMAE、LPIPS、およびSSIM指標でGAN-inversionのベースラインを上回るほぼ完璧な再構成品質を達成します。
- 実画像を未見ドメインへ操作し、未見ドメイン間の翻訳を実現し、定性的および人間評価でベースラインを上回ります。
- アイデンティティ制約を伴う方向性CLIP損失は、セグメンテーションの一貫性が高く、アイデンティティを保持した堅牢な属性制御を実現します。
- 複数のファインチューニングモデルからのノイズを単一のサンプリングステップで結合することで、複数属性転送が可能です。
- 返戻ステップを用い、ステップ数を削減した高速サンプリングは、忠実度のわずかな損失で実用的な速度向上を提供します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。