Skip to main content
QUICK REVIEW

[論文レビュー] ConceptPrism: Concept Disentanglement in Personalized Diffusion Models via Residual Token Optimization

Minseo Kim, Minchan Kwon|arXiv (Cornell University)|Feb 23, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

ConceptPrism は、ターゲットトークンと画像ごとの残差トークンを再構成損失と除外損失で同時最適化することにより、個別化テキスト-to-画像拡散モデルにおける共通ターゲット概念を画像固有の残差から自動的に分離します。

ABSTRACT

Personalized text-to-image generation suffers from concept entanglement, where irrelevant residual information from reference images is captured, leading to a trade-off between concept fidelity and text alignment. Recent disentanglement approaches attempt to solve this utilizing manual guidance, such as linguistic cues or segmentation masks, which limits their applicability and fails to fully articulate the target concept. In this paper, we propose ConceptPrism, a novel framework that automatically disentangles the shared visual concept from image-specific residuals by comparing images within a set. Our method jointly optimizes a target token and image-wise residual tokens using two complementary objectives: a reconstruction loss to ensure fidelity, and a novel exclusion loss that compels residual tokens to discard the shared concept. This process allows the target token to capture the pure concept without direct supervision. Extensive experiments demonstrate that ConceptPrism effectively resolves concept entanglement, achieving a significantly improved trade-off between fidelity and alignment.

研究の動機と目的

  • 個別化 T2I ジェネレーションを動機づけ、ターゲット概念の忠実度とテキスト整合性の概念の絡み合いを解決する。
  • イン画像間比較による共通概念の自動的な分離を提案する。
  • 明示的な監視なしにターゲット概念を分離するための残差トークンと二重損失フレームワークを導入する。
  • 学習済みトークンを用いて拡散モデルを指示し、概念に焦点を当てたファインチューニングを可能にする。

提案手法

  • 概念と残差情報を表す単一のターゲットトークンとともに画像ごとの残差トークンを導入する。
  • トークン対から複数の参照画像へ忠実な画像再構成を保証する再構成損失を用いる。
  • 残差トークンに除外損失を導入し、KL発散に基づく目的で共通のターゲット概念を捨てさせる。
  • 残差トークンを説明的な画像キャプションで初期化し、一般的なシーン情報を捉える。
  • 学習済みトークンを用いて LoRA で拡散モデルを微調整し、概念分離された個別化を実現する。
Figure 1 : Motivation of ConceptPrism. The reconstruction loss ( $\mathcal{L}_{\text{rec}}$ ) promotes information acquisition from the given image, while the exclusion loss ( $\mathcal{L}_{\text{excl}}$ ) compels discarding the commonalities from the set. By jointly optimizing the target and residu
Figure 1 : Motivation of ConceptPrism. The reconstruction loss ( $\mathcal{L}_{\text{rec}}$ ) promotes information acquisition from the given image, while the exclusion loss ( $\mathcal{L}_{\text{excl}}$ ) compels discarding the commonalities from the set. By jointly optimizing the target and residu

実験結果

リサーチクエスチョン

  • RQ1個別化 T2I ジェネレーションで、マニュアルな指示なしに inter-image 比較によって共通のターゲット概念を画像固有の残差から分離できるか?
  • RQ2再構成損失と除外損失は、個別化された概念の忠実度-整合性のトレードオフを jointly 改善するか?
  • RQ3残差トークンは初期化・学習ダイナミクス・最終ファインチューニングの効率にどう影響するか?
  • RQ4ベースラインと比較して、さまざまな概念タイプ(物体、スタイル、ポーズ)に対して手法は頑健か?
  • RQ5トークン最適化の影響は学習時間と最終生成品質にどう影響するか?

主な発見

MethodCLIP-T ↑DINO ↑CLIP-I ↑Training Time(s) ↓
Pretrained SD0.377 ± 0.0240.167 ± 0.0290.320 ± 0.030-
DreamBooth-LoRA0.313 ± 0.0300.182 ± 0.0300.331 ± 0.030434.32 ± 75.50
Custom Diffusion0.357 ± 0.0230.178 ± 0.0320.341 ± 0.031459.60 ± 59.64
DisenBooth0.355 ± 0.0270.170 ± 0.0350.324 ± 0.033928.63 ± 51.43
DisEnvisioner0.309 ± 0.0230.171 ± 0.0220.320 ± 0.024-
ELITE0.293 ± 0.0300.172 ± 0.0310.341 ± 0.032-
ConceptPrism (Ours)0.357 ± 0.0250.210 ± 0.0350.353 ± 0.032477.30 ± 91.29
  • ConceptPrism は、評価された手法の中でテキスト整合性(CLIP-T)と概念忠実度(DINO, CLIP-I)との最適なトレードオフを達成する。
  • アブレーション実験では、残差トークンと除外損失がそれぞれ CLIP-T と DINO の指標を大幅に改善し、分離の役割を確認した。
  • 残差トークンは画像固有情報をモデル化するのに重要であり、少なくとも1つの残差トークンを使用すると性能が向上する。
  • 残差トークンの初期化を改善すると、整合性と忠実度の両方がさらに向上する。
  • ConceptPrism は追加のトークン最適化ステップを要するが、概念の分離を強化しつつファインチューニングをより速く行える。
Figure 2 : Training Pipeline of ConceptPrism. Our method comprises two stages: (a) In the Token Optimization, the target and image-wise residual tokens are jointly optimized via dual losses. The reconstruction loss ( $\mathcal{L}_{\text{rec}}$ ) guides the faithful reconstruction of the given image
Figure 2 : Training Pipeline of ConceptPrism. Our method comprises two stages: (a) In the Token Optimization, the target and image-wise residual tokens are jointly optimized via dual losses. The reconstruction loss ( $\mathcal{L}_{\text{rec}}$ ) guides the faithful reconstruction of the given image

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。