QUICK REVIEW

[論文レビュー] DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models

Ying Fan, Olivia Watkins|arXiv (Cornell University)|May 25, 2023

Generative Adversarial Networks and Image Synthesis被引用数 17

ひとこと要約

DPOK は KL 正則化を用いたオンライン強化学習で拡散ベースのテキスト-to-画像モデルを微調整し、教師あり微調整よりもテキストと画像の整合性と画像忠実度を向上させる。

ABSTRACT

Learning from human feedback has been shown to improve text-to-image models. These techniques first learn a reward function that captures what humans care about in the task and then improve the models based on the learned reward function. Even though relatively simple approaches (e.g., rejection sampling based on reward scores) have been investigated, fine-tuning text-to-image models with the reward function remains challenging. In this work, we propose using online reinforcement learning (RL) to fine-tune text-to-image models. We focus on diffusion models, defining the fine-tuning task as an RL problem, and updating the pre-trained text-to-image diffusion models using policy gradient to maximize the feedback-trained reward. Our approach, coined DPOK, integrates policy optimization with KL regularization. We conduct an analysis of KL regularization for both RL fine-tuning and supervised fine-tuning. In our experiments, we show that DPOK is generally superior to supervised fine-tuning with respect to both image-text alignment and image quality. Our code is available at https://github.com/google-research/google-research/tree/master/dpok.

研究の動機と目的

人間のフィードバックから学ぶことによって、テキストから画像への生成を改善する動機付け。
拡散モデルの微調整を KL 正則化を用いたオンライン RL 問題として定式化する。
テキストと画像の整合性におけるオンライン RL が supervised fine-tuning より有利である点を検討する。
ImageReward を報酬モデルとして Stable Diffusion に対する RL 微調整を評価する。
RL 微調整と KL 正則化付き supervised 微調整の分析と比較を提供する。

提案手法

DDPM のデノイニング過程を状態 s_t と行動 a_t を持つ多段階の MDPとして捉える。
事前学習済みモデルへの KL 正則化を伴う期待報酬を最大化するオンライン方策勾配目的関数を導出する。
DPOK: Diffusion Policy Optimization with KL regularization を導入し、その勾配（Eq. 9）を提供する。
オンライン微調整を安定化させるための出力画像に対する上限 KL 正則化を提案する（Lemma 4.2 & Eq. 8-9）。
KL 正則化を supervised fine-tuning へ拡張し、KL-D と KL-O のバリアントを比較する（Lemmas 4.3, 4.3）。
LoRA と ImageReward を用いた Stable Diffusion v1.5 で RL と SFT を比較する実験を行う。

実験結果

リサーチクエスチョン

RQ1オンライン RL 微調整は supervised fine-tuning と比較して、画像忠実度を犠牲にすることなくテキストと画像の整合性を改善できるか？
RQ2KL 正則化は RL 微調整を安定化させ、拡散モデルの一般的な故障モードを緩和するか？
RQ3学習用プロンプトを超える複数のプロンプトやデータセットを最適化する場合、RL 微調整はどう機能するか？
RQ4報酬と美的評価に対する RL における KL 正則化と supervised 設定の比較効果は何か？
RQ5オンライン RL は報酬駆動の最適化を通じて、事前学習済み拡散モデルに存在する偏りを低減するか？

主な発見

データセット	元の ImageReward	RL ImageReward	元の美的評価	RL 美的評価
MS-CoCo	0.22	0.55	5.39	5.43
Drawbench	0.13	0.58	5.31	5.35

オンライン RL 微調整は一般に高い ImageReward スコアを達成し、 supervised fine-tuning より美的スコアが競争力がある、あるいは上回る。
RL 微調整済みモデルは、 unseen objects を含むプロンプトへの整合性が向上し、SFT で見られる過剰な彩度などの問題を回避する。
KL 正則化は RL を安定化させ、報酬と美的評価の両方を改善するのに役立つが、KL がないと RL は画像品質を低下させ得る。
人間の評価では、画像とテキストの整合性および画像品質の点で RL が SFT より有利である。
複数のプロンプト（MS-CoCo, Drawbench）での RL は、元のモデルと比較して美学を維持しつつ報酬を大幅に改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。