[论文解读] Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
Emu 证明通过用少量高美感图像对预训练的文本到图像模型进行质量微调,可以显著提升视觉吸引力,同时保持泛化能力,在视觉美学方面超过 SDXLv1.0。
Training text-to-image models with web scale image-text pairs enables the generation of a wide range of visual concepts from text. However, these pre-trained models often face challenges when it comes to generating highly aesthetic images. This creates the need for aesthetic alignment post pre-training. In this paper, we propose quality-tuning to effectively guide a pre-trained model to exclusively generate highly visually appealing images, while maintaining generality across visual concepts. Our key insight is that supervised fine-tuning with a set of surprisingly small but extremely visually appealing images can significantly improve the generation quality. We pre-train a latent diffusion model on $1.1$ billion image-text pairs and fine-tune it with only a few thousand carefully selected high-quality images. The resulting model, Emu, achieves a win rate of $82.9\%$ compared with its pre-trained only counterpart. Compared to the state-of-the-art SDXLv1.0, Emu is preferred $68.4\%$ and $71.3\%$ of the time on visual appeal on the standard PartiPrompts and our Open User Input benchmark based on the real-world usage of text-to-image models. In addition, we show that quality-tuning is a generic approach that is also effective for other architectures, including pixel diffusion and masked generative transformer models.
研究动机与目标
- 推动文本到图像生成在超越预训练后的美学对齐改进。
- 证明一个小型、手动筛选的高质量数据集能显著提升图像美学。
- 展示质量微调在跨领域保持视觉概念的普遍性。
- 提供证据表明质量微调的收益可转移到其他架构。
提出的方法
- 在11亿对图像-文本对上预训练潜在扩散模型(LDM)。
- 使用人工与自动筛选、依据摄影原则的筛选,整理一个由2,000张高质量图像组成的微调集。
- 以小批量(64)和0.1的噪声偏移进行微调,最多15k次迭代。
- 将质量微调应用于替代架构(像素扩散和掩模生成 transformers)以测试普适性。
- 通过对 PartiPrompts 和 Open User Input 提示进行人类偏好评估美学,关注视觉吸引力和文本一致性。
实验结果
研究问题
- RQ1一个极小、高质量的微调数据集是否能够引导预训练的文本到图像模型在不牺牲概念覆盖的前提下实现更高的视觉吸引力?
- RQ2质量微调是否可在潜在扩散模型之外的不同模型架构之间转移?
- RQ3就视觉吸引力和与文本提示的对齐而言,质量微调与预训练相比有何差异?
主要发现
| Eval data | win (%) | tie (%) | lose (%) |
|---|---|---|---|
| Parti (All) | 68.4 | 2.1 | 29.5 |
| OUI (All) | 71.3 | 1.2 | 27.5 |
| Parti (Stylized) | 81.7 | 1.9 | 16.3 |
| OUI (Stylized) | 75.5 | 1.4 | 23.1 |
- Emu 在 PartiPrompts 的视觉吸引力方面以82.9%的胜率优于其预训练版本,在 Open User Input 提示上达到91.2%。
- Emu 相较于 SDXLv1.0 的偏好度在视觉吸引力方面分别为68.4%(Parti All)和71.3%(OUI All)。
- 质量微调也提升了文本忠实度(PartiPrompts 为36.7%,OUI 为47.9%)。
- 在风格化提示上也取得类似增益,SDXLv1.0 在视觉吸引力与风格化子集上均被超越。
- 质量微调对其他架构(像素扩散和掩模生成 transformers)也有效,体现在视觉吸引力和文本忠实度的提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。