[論文レビュー] T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models
この論文は、基盤となるテキストから画像への拡散モデルの retraining なしで、外部制御信号をより細かく合わせる軽量モジュールである T2I-Adapters を導入する。
The incredible generative ability of large-scale text-to-image (T2I) models has demonstrated strong power of learning complex structures and meaningful semantics. However, relying solely on text prompts cannot fully take advantage of the knowledge learned by the model, especially when flexible and accurate controlling (e.g., color and structure) is needed. In this paper, we aim to ``dig out" the capabilities that T2I models have implicitly learned, and then explicitly use them to control the generation more granularly. Specifically, we propose to learn simple and lightweight T2I-Adapters to align internal knowledge in T2I models with external control signals, while freezing the original large T2I models. In this way, we can train various adapters according to different conditions, achieving rich control and editing effects in the color and structure of the generation results. Further, the proposed T2I-Adapters have attractive properties of practical value, such as composability and generalization ability. Extensive experiments demonstrate that our T2I-Adapter has promising generation quality and a wide range of applications.
研究の動機と目的
- 小さなアダプターが T2I モデルの内部知識を明らかにし、制御性を向上させることを示す。
- ベースの拡散モデルを再訓練することなく、柔軟で組み合わせ可能、一般化可能な制御信号(カラー、構造)を実現する。
- 低データ量と計算量でアダプターを訓練し、プラグアンドプレーで挿入できることを示す。
提案手法
- マルチスケール特徴抽出を備え、条件特徴を SD UNet のエンコーダに注入する軽量な T2I-Adapter アーキテクチャを導入する。
- Stable Diffusion モデルを固定したままアダプターを訓練し、アダプター案内と拡散デノイジングを整列させる損失(L_AD)を最適化する。
- 可変ウェイトでアダプターを組み合わせて多条件制御をサポートする(Eq. 5)。
- 訓練時には非一様(立方体)タイムステップサンプリングを用い、ガイダンスが重要となる初期推論段階を強調する。
- 空間色マップを介して、スケッチ、セグメンテーション、深度、キーポーズなどのさまざまな制御信号とカラー パレットの互換性を示す。

実験結果
リサーチクエスチョン
- RQ1軽量アダプターは、外部制御信号を事前学習済みの T2I 拡散モデルの内部知識と整合させて、より細かな制御を実現できるか。
- RQ2アダプターは、元の拡散モデルを変更することなく、組み合わせ可能で多条件かつ一般化可能な制御を可能にするか。
- RQ3アダプターの配置と訓練戦略が生成品質と制御性に及ぼす影響はどの程度か。
主な発見
- アダプターは、ベースモデルの生成能力を変えずに、制御可能な案内を実現する。
- この手法は、COCO バリデーションでベースラインと比較して FID/CLIP スコアが競合的または改善を示す。
- 多条件アダプターを組み合わせて深度とキーポーズ、スケッチとカラーなどの組合せ制御を実現できる。
- アダプターは SD のバージョン間(SD-v1.4 〜 SD-v1.5)および同じベースからファインチューニングされたカスタムモデルにも一般化する。
- 立方時間ステップサンプリングによる訓練はカラーと構造のガイダンスを強化する。
- 小型のアダプターでもパラメータ数を削減しつつ有効な制御を維持する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。