Skip to main content
QUICK REVIEW

[论文解读] Objective-Reinforced Generative Adversarial Networks (ORGAN) for Sequence Generation Models

Gabriel Lima Guimaraes, Benjamín Sánchez-Lengeling|arXiv (Cornell University)|May 30, 2017
Topic Modeling参考文献 29被引用 495
一句话总结

ORGAN 将 SeqGAN 与对抗奖励和领域特定目标奖励结合,在强化学习框架中引导序列生成(分子与音乐)朝向期望属性,同时保持数据相似性和多样性,使用 Wasserstein GAN 以实现稳定性。

ABSTRACT

In unsupervised data generation tasks, besides the generation of a sample based on previous observations, one would often like to give hints to the model in order to bias the generation towards desirable metrics. We propose a method that combines Generative Adversarial Networks (GANs) and reinforcement learning (RL) in order to accomplish exactly that. While RL biases the data generation process towards arbitrary metrics, the GAN component of the reward function ensures that the model still remembers information learned from data. We build upon previous results that incorporated GANs and RL in order to generate sequence data and test this model in several settings for the generation of molecules encoded as text sequences (SMILES) and in the context of music generation, showing for each case that we can effectively bias the generation process towards desired metrics.

研究动机与目标

  • 推动需要将序列生成器引导至领域特定指标而不丢失对数据分布的相似性的必要性。
  • 提出 ORGAN,在强化学习设置下将判别器奖励与显式目标奖励相结合。
  • 在离散序列生成(分子和音乐)中展示目标属性和多样性的改进。
  • 通过 Wasserstein 距离及多样性保留惩罚项研究训练稳定性。

提出的方法

  • 在 SeqGAN 的基础上,将生成器建模为用奖励来训练的 RL 策略。
  • 定义组合奖励 R(Y1:T) = λ · Dφ(Y1:T) + (1 − λ) · Oi(Y1:T).
  • 使用蒙特卡罗滚出估计部分序列的 Q 值并指导策略梯度更新。
  • 通过惩罚重复样本(非唯一序列)来促进多样性。
  • 采用 Wasserstein-1 距离(WGAN)对判别器进行训练以稳定 GAN 动态。
  • 实现使用基于 LSTM 的生成器 (Gθ) 和基于 CNN 的判别器 (Dφ),并采用标准优化(Adam)。

实验结果

研究问题

  • RQ1 ORGAN 是否能在不过度偏离原始数据分布的情况下,将序列生成朝向领域特定目标?
  • RQ2将判别器奖励与目标奖励结合,是否比基线在目标指标和样本多样性上都更好?
  • RQ3使用 Wasserstein 距离对训练稳定性和样本质量在 ORGAN 中有何影响?
  • RQ4 ORGAN 在不同领域(分子 SMILES 字符串与音乐旋律)对不同目标信号的表现如何?
  • RQ5是否存在一个最优平衡参数 λ,能够同时最大化目标对象和数据似然?

主要发现

  • ORGAN 相对于 MLE 和 SeqGAN,在分子和音乐任务中提升了目标领域指标。
  • WGAN-ORGAN 变体表现出更高的多样性,且通常在属性分布上优于非 WGAN 基线。
  • 朴素的强化学习容易对简单模式过拟合,而 ORGAN 通过对抗引导和非唯一序列惩罚实现多样性保留。
  • 交替多目标训练(轮换目标)在各指标上实现高增益,接近最佳单目标模型。
  • 调整 λ 会在目标优化和数据似然之间取得权衡,最优值取决于数据集和指标。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。