[论文解读] Aligning Text-to-Image Models using Human Feedback
本文提出一个三阶段管线,将文本到图像模型与人类偏好对齐,通过收集人类反馈、从反馈学习奖励函数,并通过基于奖励的似然训练让模型微调以改善图文对齐。
Deep generative models have shown impressive results in text-to-image synthesis. However, current text-to-image models often generate images that are inadequately aligned with text prompts. We propose a fine-tuning method for aligning such models using human feedback, comprising three stages. First, we collect human feedback assessing model output alignment from a set of diverse text prompts. We then use the human-labeled image-text dataset to train a reward function that predicts human feedback. Lastly, the text-to-image model is fine-tuned by maximizing reward-weighted likelihood to improve image-text alignment. Our method generates objects with specified colors, counts and backgrounds more accurately than the pre-trained model. We also analyze several design choices and find that careful investigations on such design choices are important in balancing the alignment-fidelity tradeoffs. Our results demonstrate the potential for learning from human feedback to significantly improve text-to-image models.
研究动机与目标
- 激励并量化文本提示与文本到图像模型生成图像之间的错位/不对齐。
- 开发一种成本效益高的方法,从人类反馈中学习奖励函数,以捕捉与人类意图的一致性。
- 使用奖励加权目标对基于扩散的图像生成模型进行微调,以提高提示的保真性和组合性。
- 评估对齐与图像保真度之间的权衡,并分析数据多样性与辅助损失的设计选择。
提出的方法
- 从旨在强调对齐的提示生成多样化图像(颜色、数量、背景)。
- 收集关于图像-文本对对齐的二元人类反馈。
- 使用 CLIP 嵌入训练奖励模型 r_phi(x,z),以预测人类判断,并添加辅助的提示分类损失以提高泛化。
- 通过最小化结合模型数据与预训练数据的奖励加权对数似然目标来微调文本到图像模型,以实现正则化。
- 可选地采用拒绝采样,根据学习到的奖励选择最高输出。
- 使用人类判断和标准度量(FID)来评估对齐与保真度,以及对未知提示的泛化。
实验结果
研究问题
- RQ1人类反馈是否能有效引导微调,以改善扩散式文本到图像模型的图文对齐?
- RQ2基于人类判断训练的奖励模型在对齐方面是否比基于 CLIP 的度量更符合人类偏好?
- RQ3辅助损失和数据多样性策略是否提升奖励学习以及对未知提示的泛化?
- RQ4奖励加权微调对图像保真度有何影响,拒绝采样是否能放大对齐增益?
主要发现
| 类别 | 图片总数 | 良好 | 不良 | 跳过 |
|---|---|---|---|---|
| Count | 6480 | 34.4 | 61.0 | 4.6 |
| Color | 3480 | 70.4 | 20.8 | 8.8 |
| Background | 2400 | 66.9 | 33.1 | 0.0 |
| Combination | 15168 | 35.8 | 59.9 | 4.3 |
- 在有人工反馈的情况下进行微调,相比原始模型显著改善图像-文本对齐,在人类评估中对齐提升最高可达47%。
- 学得的奖励函数在对齐评估方面比在测试提示上的 CLIP 分数更符合人类评估。
- 辅助的提示分类损失和数据多样性策略提升了奖励对未知提示和对象的泛化能力。
- 基于学习到的奖励进行的拒绝采样在不额外训练模型的情况下进一步提升对齐,尽管增加了推理成本。
- 在没有多样数据的情况下进行的简单微调尽管对齐效果更好,却可能降低图像保真度,凸显对齐与保真度之间的权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。