[論文レビュー] Aligning Text-to-Image Models using Human Feedback
本論文は、テキスト-to-画像モデルを人間の嗜好に適合させるための3段階パイプラインを提案する。人間のフィードバックを収集し、それをもとに報酬関数を学習し、報酬に基づく尤度でモデルをファインチューニングして、画像とテキストの整合性を改善する。
Deep generative models have shown impressive results in text-to-image synthesis. However, current text-to-image models often generate images that are inadequately aligned with text prompts. We propose a fine-tuning method for aligning such models using human feedback, comprising three stages. First, we collect human feedback assessing model output alignment from a set of diverse text prompts. We then use the human-labeled image-text dataset to train a reward function that predicts human feedback. Lastly, the text-to-image model is fine-tuned by maximizing reward-weighted likelihood to improve image-text alignment. Our method generates objects with specified colors, counts and backgrounds more accurately than the pre-trained model. We also analyze several design choices and find that careful investigations on such design choices are important in balancing the alignment-fidelity tradeoffs. Our results demonstrate the potential for learning from human feedback to significantly improve text-to-image models.
研究の動機と目的
- テキスト-to-画像モデルにおけるテキストプロンプトと生成画像之间の乖離を動機づけて定量化する。
- 人間の意図との整合性を捉える報酬関数を、コスト効果高く学習する方法を開発する。
- 拡散型画像生成器を報酬重み付き目的でファインチューニングし、プロンプトの忠実性と組成性を向上させる。
- 整合性と画像忠実度のトレードオフを評価し、データ多様性と補助損失の設計選択を分析する。
提案手法
- 整合性を強調するように設計されたプロンプト(色、個数、背景など)から多様な画像を生成する。
- 画像と言語ペアの整合性について二値のヒトのフィードバックを収集する。
- CLIP埋め込みを用いて人間の判断を予測する報酬モデル r_phi(x,z) を訓練し、一般化を改善するための補助的なプロンプト分類損失を用いる。
- 正則化のために、モデルデータと事前学習データを組み合わせた報酬重み付き対数尤度目的関数を最小化して、テキスト-to-画像モデルをファインチューニングする。
- 任意で、学習済み報酬に従って上位出力を選択するリジェクションサンプリングを用いる。
- 人間の判断と標準指標(FID)を用いて評価し、整合性と忠実度のトレードオフおよび未知のプロンプトへの一般化を検討する。
実験結果
リサーチクエスチョン
- RQ1人間のフィードバックは、拡散型のテキストto画像モデルにおける画像とテキストの整合性を改善するファインチューニングを効果的に導けるだろうか?
- RQ2人間の判断で訓練された報酬モデルは、整合性の評価においてCLIPベースの指標より人間の嗜好と相関が高いか。
- RQ3補助的な損失やデータ多様性戦略は、報酬学習と未知のプロンプトへの一般化を改善するか。
- RQ4報酬重み付きファインチューニングが画像忠実度に与える影響は何か、リジェクションサンプリングは整合性の向上をさらに高め得るか。
主な発見
| カテゴリ | 総画像数 | 良好 | 悪 | スキップ |
|---|---|---|---|---|
| Count | 6480 | 34.4 | 61.0 | 4.6 |
| Color | 3480 | 70.4 | 20.8 | 8.8 |
| Background | 2400 | 66.9 | 33.1 | 0.0 |
| Combination | 15168 | 35.8 | 59.9 | 4.3 |
- 人間のフィードバックを用いたファインチューニングは、元のモデルと比較して画像と言語の整合性を大幅に改善し、人間による評価で最大47%の整合性向上を達成した。
- 学習した報酬関数は、評価対象のプロンプトでのCLIPスコアより整合性の人間評価との整合性が高い。
- 補助的なプロンプト分類損失とデータ多様性戦略は、未知のプロンプトやオブジェクトへの報酬の一般化を改善する。
- 学習済み報酬に基づくリジェクションサンプリングは追加のモデル訓練なしに整合性をさらに改善するが、推論コストを増加させる。
- 多様なデータがないナイーブなファインチューニングは、整合性が向上しても画像忠実度を低下させる可能性があることを示し、整合性と忠実度のトレードオフを強調している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。