Skip to main content
QUICK REVIEW

[論文レビュー] Highly Personalized Text Embedding for Image Manipulation by Stable Diffusion

Inhwa Han, Serin Yang|arXiv (Cornell University)|Mar 15, 2023
Generative Adversarial Networks and Image Synthesis被引用数 10
ひとこと要約

本論文は HiPer を紹介します。単純で微調整を要しない方法で、CLIP 埋め込みを高度に個別化された tail と意味的 head に分解することにより、Stable Diffusion をパーソナル化し、背景、質感、動きの単一画像・テキスト誘導操作を可能にします。

ABSTRACT

Diffusion models have shown superior performance in image generation and manipulation, but the inherent stochasticity presents challenges in preserving and manipulating image content and identity. While previous approaches like DreamBooth and Textual Inversion have proposed model or latent representation personalization to maintain the content, their reliance on multiple reference images and complex training limits their practicality. In this paper, we present a simple yet highly effective approach to personalization using highly personalized (HiPer) text embedding by decomposing the CLIP embedding space for personalization and content manipulation. Our method does not require model fine-tuning or identifiers, yet still enables manipulation of background, texture, and motion with just a single image and target text. Through experiments on diverse target texts, we demonstrate that our approach produces highly personalized and complex semantic image edits across a wide range of tasks. We believe that the novel understanding of the text embedding space presented in this work has the potential to inspire further research across various tasks.

研究の動機と目的

  • 高度に個別化されたテキスト埋め込みが被写体アイデンティティを保持しつつ、テキスト指示による意味的編集を可能にすることを実証する。
  • diffusion-based image manipulation において、モデルの微調整や識別子を必要としないパーソナライゼーションを実現する。
  • 単一のソース画像とターゲットテキストから、背景、質感、動作の操作が可能であることを示す。

提案手法

  • ソース CLIP 埋め込みを semantic 部分と tail 部分に分解し、tail を HiPer embedding としてアイデンティティを保持する。
  • semantic head を固定しつつ HiPer tail embedding (N tokens) のみを diffusion model loss で最適化する。
  • 推論時にターゲット semantic embedding と HiPer tail を連結して合成 embedding を作成し、画像生成を駆動する。
  • 画像空間ではなく Stable Diffusion の latent space で最適化を実行する。
  • モデルの微調整や識別子なしで、約3分・1000 optimization steps・N=5 の短い学習プロセスを用いる。
Figure 1 : Image manipulation results with highly personalized (HiPer) text embeddings. In the upper row, the identities of the rabbit and the dog are well preserved while adequately manipulating the images to align with target texts. In the bottom row, not only motion and background, but also textu
Figure 1 : Image manipulation results with highly personalized (HiPer) text embeddings. In the upper row, the identities of the rabbit and the dog are well preserved while adequately manipulating the images to align with target texts. In the bottom row, not only motion and background, but also textu

実験結果

リサーチクエスチョン

  • RQ1小さく高度に個別化された tail embedding が、アイデンティティを保持しつつ柔軟なターゲットテキスト駆動編集を可能にするか。
  • RQ2CLIP 埋め込みを personal tail と semantic head に分解することが、微調整を行わずにマルチアスペクト編集(動作・背景・質感)を改善するか。
  • RQ3個別化トークン数 N の増減がアイデンティティ保持と編集忠実度に与える影響はどのようなものか。

主な発見

  • HiPer は、 source identity を保持しつつ、動作・背景・質感の編集を高度にパーソナライズ可能とする。
  • 単一ソース画像で HiPer tail (N=5) のみを最適化した場合、DreamBooth、Textual Inversion、Imagic のベースラインと比較して、Stable Diffusion 下で競争力があるか、上回る結果を示す。
  • N を増やすと過学習とソース画像からのアイデンティティリークが生じ、N が小さすぎるとアイデンティティ保持が低下する。
  • Cross-attention 分析により、個別化埋め込みは standard embeddings とは異なる注意マップを活性化し、個別化と操作の分離を支持する。
  • 本手法はモデルの微調整を要せず、訓練時間は約 three minutes で実現する。
Figure 2 : The proposed method. (Training) First, the source text prompt, which have the meaning of source image, is converted to text embedding. Some parts of text embedding, which have no information, are removed. The informative target embedding part and the personalized embedding is concatenated
Figure 2 : The proposed method. (Training) First, the source text prompt, which have the meaning of source image, is converted to text embedding. Some parts of text embedding, which have no information, are removed. The informative target embedding part and the personalized embedding is concatenated

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。