[論文レビュー] Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
Emu は、事前学習済みのテキスト-画像生成モデルを、高度に美的な画像の小さなセットで品質チューニングすることで、視覚的魅力を大幅に向上させつつ一般性を維持し、視覚美学において SDXLv1.0 を上回ることを示している。
Training text-to-image models with web scale image-text pairs enables the generation of a wide range of visual concepts from text. However, these pre-trained models often face challenges when it comes to generating highly aesthetic images. This creates the need for aesthetic alignment post pre-training. In this paper, we propose quality-tuning to effectively guide a pre-trained model to exclusively generate highly visually appealing images, while maintaining generality across visual concepts. Our key insight is that supervised fine-tuning with a set of surprisingly small but extremely visually appealing images can significantly improve the generation quality. We pre-train a latent diffusion model on $1.1$ billion image-text pairs and fine-tune it with only a few thousand carefully selected high-quality images. The resulting model, Emu, achieves a win rate of $82.9\%$ compared with its pre-trained only counterpart. Compared to the state-of-the-art SDXLv1.0, Emu is preferred $68.4\%$ and $71.3\%$ of the time on visual appeal on the standard PartiPrompts and our Open User Input benchmark based on the real-world usage of text-to-image models. In addition, we show that quality-tuning is a generic approach that is also effective for other architectures, including pixel diffusion and masked generative transformer models.
研究の動機と目的
- 事前学習を超える、テキストから画像への生成における美的適合性の改善を動機づける。
- 小規模で手動で精選された高品質データセットが、画像美学を著しく向上させることを示す。
- 品質チューニングが、領域を超えた視覚概念の普遍性を保つことを示す。
- 品質チューニングの利得が他のアーキテクチャへ移行可能であることを示す証拠を提供する。
提案手法
- 1.1 億の画像-テキストペアで潜在拡散モデル(LDM)を事前学習する。
- 写真原理に導かれた手動および自動フィルタを用いて、2,000枚の高品質なファインチューニングデータセットを厳選する。
- バッチサイズを小さく(64)し、ノイズオフセットを0.1とした上で、最大15k イテレーションまでモデルをファインチューニングする。
- 一般性を検証するため、代替アーキテクチャ(ピクセル拡散およびマスクド生成トランスフォーマー)へ品質チューニングを適用する。
- PartiPrompts および Open User Input prompts における人間の嗜好を用いて美学を評価し、視覚的魅力とテキストの忠実性に焦点を当てる。
実験結果
リサーチクエスチョン
- RQ1非常に小さく高品質なファインチューニングデータセットが、概念カバレッジを損なうことなく、事前学習済みのテキストから画像へのモデルをより高い視覚的魅力へ導くことができるか?
- RQ2品質チューニングは、潜在拡散モデルを超えた異なるモデルアーキテクチャ間で移行可能か?
- RQ3視覚的魅力とテキストプロンプトとの整合性の観点で、品質チューニングは事前学習とどう比較されるか?
主な発見
| 評価データ | 勝利 (%) | 引き分け (%) | 敗北 (%) |
|---|---|---|---|
| Parti (All) | 68.4 | 2.1 | 29.5 |
| OUI (All) | 71.3 | 1.2 | 27.5 |
| Parti (Stylized) | 81.7 | 1.9 | 16.3 |
| OUI (Stylized) | 75.5 | 1.4 | 23.1 |
- Emu は PartiPrompts で事前学習済み対比で視覚的魅力の勝率 82.9%、Open User Input prompts で 91.2% を達成。
- Emu は SDXLv1.0 よりも visual appeal で 68.4%(Parti All)と 71.3%(OUI All)で好評を得る。
- 品質チューニングはテキスト忠実性も向上させ、PartiPrompts で 36.7%、OUI で 47.9%。
- スタイライズされたプロンプトでも同様の利得が得られ、視覚的魅力とスタイライズサブセットの両方で SDXLv1.0 を上回る。
- 品質チューニングは、視覚的魅力とテキスト忠実性の改善として、他のアーキテクチャ(ピクセル拡散およびマスクド生成トランスフォーマー)にも有効である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。