QUICK REVIEW

[論文レビュー] Controlling Text-to-Image Diffusion by Orthogonal Finetuning

Zeju Qiu, Weiyang Liu|arXiv (Cornell University)|Jun 12, 2023

Model Reduction and Neural Networks被引用数 21

ひとこと要約

本論文は Orthogonal Finetuning (OFT) とその制約付きバリアント COFT を提案し、事前学習済みの意味構造を超球面エネルギーを介して保持しつつ、主題指向および制御可能な生成のためにテキストから画像への拡散モデルを適応させる。OFT は層共有の直交変換を用いてニューロンの角度を維持し、推論オーバーヘッドなしで安定的・データ効率の高いファインチューニングを実現する。

ABSTRACT

Large text-to-image diffusion models have impressive capabilities in generating photorealistic images from text prompts. How to effectively guide or control these powerful models to perform different downstream tasks becomes an important open problem. To tackle this challenge, we introduce a principled finetuning method -- Orthogonal Finetuning (OFT), for adapting text-to-image diffusion models to downstream tasks. Unlike existing methods, OFT can provably preserve hyperspherical energy which characterizes the pairwise neuron relationship on the unit hypersphere. We find that this property is crucial for preserving the semantic generation ability of text-to-image diffusion models. To improve finetuning stability, we further propose Constrained Orthogonal Finetuning (COFT) which imposes an additional radius constraint to the hypersphere. Specifically, we consider two important finetuning text-to-image tasks: subject-driven generation where the goal is to generate subject-specific images given a few images of a subject and a text prompt, and controllable generation where the goal is to enable the model to take in additional control signals. We empirically show that our OFT framework outperforms existing methods in generation quality and convergence speed.

研究の動機と目的

事前学習の品質を損なうことなく、テキストから画像への拡散モデルの効果的なファインチューニングを動機づける。
直交ニューロン変換によって超球面エネルギーを維持し、意味的生成能力を保持する。
下流タスクに対して安定した収束性を持つ、効率的で低パラメータなファインチューニング手法を開発する。
2 つのタスク、すなわち主題指向生成と制御可能生成に拡張し、サンプル効率と安定性を改善する。

提案手法

単位超球面上のペアワイズなニューロン角度関係を測る指標として超球面エネルギーを定義する。
レイヤー共有の直交行列 R を学習して事前学習済み重み W0 を変換することで Orthogonal Finetuning (OFT) を提案する（W = R W0）。
Cayleyパラメータ化を用いて R が直交であることを保証し、パラメータ数を削減するためのブロック対角バリアントを実装する。
同一性からの ε-偏差の制約（R ~ I）を追加して安定性を向上させることで Constrained Orthogonal Finetuning (COFT) を導入する。
柔軟性をさらに高めるために対角スケーリング D を付加した再スケール版 OFT (Re-scaled OFT) を任意で導入する。
LoRA との関係を論じ、パラメータ効率の比較を提供する（同条件下で OFT は学習可能パラメータが少なくなる傾向）。
有効な重み行列が R W0 であるため、推論オーバーヘッドは追加されないことを示す。

実験結果

リサーチクエスチョン

RQ1OFT は下流タスクへ適応させつつ事前学習済みの超球面エネルギーを保持できるか？
RQ2COFT は事前学習済みモデルからの偏差を制約することでファインチューニングの安定性を向上させるか？
RQ3DreamBooth および LoRA と比較して、OFT および COFT は主題指向生成でどう性能を示すか？
RQ4収束速度とデータ効率の観点から、OFT/COFT は制御可能生成でどう性能を示すか？
RQ5OFT はアーキテクチャに対して汎用性があり、畳み込み層およびトランスフォーマーベースの層と互換性があるか？

主な発見

手法	DINO ↑	CLIP-I ↑	CLIP-T ↑	LPIPS ↑	実画像？(Y/N)	備考
DreamBooth	0.614	0.778	0.239	0.737	Yes	Subject fidelity and prompt alignment (baseline)
LoRA	0.613	0.765	0.237	0.744	Yes	Baseline subject-driven finetuning
COFT	0.630	0.783	0.235	0.744	Yes	Constrained OFT variant
OFT	0.632	0.785	0.237	0.746	Yes	Orthogonal finetuning baseline

OFT は超球面エネルギーを保持し、反復を通じて安定したファインチューニングを生み出し、主題指向生成で DreamBooth および LoRA を上回る。
COFT は事前学習済み重みからの偏差を制約することでファインチューニングの安定性をさらに向上させ、性能を維持する。
制御可能生成では、OFT が ControlNet および LoRA より速い収束とより良いサンプル効率を達成し、推論オーバーヘッドはない。
主題指向タスクでは、OFT/COFT がベースラインより高い DINO および CLIP-I スコアを達成し、LPIPS 多様性は同等またはそれ以上、プロンプト忠実度（CLIP-T）を維持。
OFT/COFT はベースライン手法と比較して学習画像とエポック数を大幅に減らして収束するため、データ効率を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。