[论文解读] Training Diffusion Models with Reinforcement Learning
本文提出 DDPO,一种去噪扩散策略优化方法,将扩散去噪视为多步马尔可夫决策过程,直接优化下游奖励,优于奖励加权似然方法,并能够利用视觉-语言模型的奖励信号来提升文本到图像扩散模型的提示对齐。
Diffusion models are a class of flexible generative models trained with an approximation to the log-likelihood objective. However, most use cases of diffusion models are not concerned with likelihoods, but instead with downstream objectives such as human-perceived image quality or drug effectiveness. In this paper, we investigate reinforcement learning methods for directly optimizing diffusion models for such objectives. We describe how posing denoising as a multi-step decision-making problem enables a class of policy gradient algorithms, which we refer to as denoising diffusion policy optimization (DDPO), that are more effective than alternative reward-weighted likelihood approaches. Empirically, DDPO is able to adapt text-to-image diffusion models to objectives that are difficult to express via prompting, such as image compressibility, and those derived from human feedback, such as aesthetic quality. Finally, we show that DDPO can improve prompt-image alignment using feedback from a vision-language model without the need for additional data collection or human annotation. The project's website can be found at http://rl-diffusion.github.io .
研究动机与目标
- 动机并提出将扩散模型优化为关注下游目标而非严格似然的问题。
- 提出一个去噪扩散策略优化(DDPO)框架,将其构建为多步 MDP。
- 证明策略梯度估计器可以直接优化下游奖励函数。
- 演示视觉-语言模型如何提供自动奖励以改进提示与图像的对齐。
- 在多种奖励函数和提示下,评估 DDPO 与奖励权重方法的对比。
提出的方法
- 将扩散模型的迭代去噪过程映射为一个多步 MDP,状态记为 s_t = (c, t, x_t),动作为 a_t = x_{t-1}。
- 使用策略梯度估计器(分数函数/REINFORCE,以及带信赖域裁剪的重要性采样变体)来最大化基于 DDPM 的奖励。
- 将 DDPO 的变体(DDPO_SF 和 DDPO_IS)与用于下游目标的奖励加权回归(RWR)方法进行比较。
- 定义下游奖励函数,包括可压缩性、不可压缩性、美学质量,以及通过视觉语言模型(VLMs)实现的自动提示对齐。
- 利用 VLMs(如 LLaVA)生成奖励,例如针对提示描述的 BERTScore recall,实现无需额外标注的自动反馈。
实验结果
研究问题
- RQ1DDPO 是否能在优化扩散模型以实现下游目标方面优于奖励加权似然方法(RWR)?
- RQ2DDPO 的变体在图像可压缩性、美学质量和提示-图像对齐等多种奖励函数下是否都有效?
- RQ3视觉语言模型是否能够提供可靠的自动奖励以在无需额外人工标注的情况下改进提示对齐?
- RQ4在训练时未见过的提示下,微调后的扩散模型是否具备泛化能力?
- RQ5在数据效率和稳定性方面,DDPO 变体之间有哪些权衡?
主要发现
- DDPO 在可压缩性、不可压缩性和美学质量任务上优于 RWR。
- DDPO 变体受益于多步 MDP 公式与直接的策略梯度估计。
- 带信赖域裁剪的重要性采样(DDPO_IS)在某些情境下略优于分数函数(DDPO_SF)。
- 基于 VLM 的奖励实现自动提示对齐,并在未见提示上提升对齐效果,无需额外标注。
- 微调能推广到训练分布之外的提示,包括新动物与非动物物体,以及提示对齐中的新颖活动。
- 强化学习微调产生了非平凡的风格性变化(如美学方面的类似艺术品输出),这并非显式为美学优化的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。