QUICK REVIEW

[论文解读] Connecting Generative Adversarial Networks and Actor-Critic Methods

David Pfau, Oriol Vinyals|arXiv (Cornell University)|Oct 6, 2016

Reinforcement Learning in Robotics参考文献 27被引用 93

一句话总结

本文通过将生成对抗网络（GANs）视为一种演员-评论家（AC）强化学习方法的特例（其中演员无法影响奖励），建立了 GANs 与演员-评论家（AC）强化学习方法之间的正式联系。该研究识别出两者共有的优化不稳定性，并跨社区应用了诸如熵正则化、批量归一化和经验回放等技术，证明了来自 AC 的洞见可稳定 GAN 训练，反之亦然，从而推动多层级深度学习优化中的协同创新。

ABSTRACT

Both generative adversarial networks (GAN) in unsupervised learning and actor-critic methods in reinforcement learning (RL) have gained a reputation for being difficult to optimize. Practitioners in both fields have amassed a large number of strategies to mitigate these instabilities and improve training. Here we show that GANs can be viewed as actor-critic methods in an environment where the actor cannot affect the reward. We review the strategies for stabilizing training for each class of models, both those that generalize between the two and those that are particular to that model. We also review a number of extensions to GANs and RL algorithms with even more complicated information flow. We hope that by highlighting this formal connection we will encourage both GAN and RL communities to develop general, scalable, and stable algorithms for multilevel optimization with deep networks, and to draw inspiration across communities.

研究动机与目标

正式建立 GANs 与双层优化框架中演员-评论家方法之间的数学等价性。
识别 GANs 与演员-评论家方法中共同存在的训练不稳定性，例如模式崩溃和振荡行为。
在 GAN 与强化学习社区之间转移稳定化技术，如熵正则化、批量归一化和经验回放。
促进 GAN 与强化学习研究之间的思想交流，以开发出更稳定、可扩展且通用的多层级深度学习优化算法。

提出的方法

将 GANs 形式化为双层优化问题，其中生成器作为演员，判别器作为评论家，且判别器的输出在无状态马尔可夫决策过程（MDP）中充当奖励信号。
将 GAN 的目标重新解释为与演员-评论家价值函数更新等价的极小极大博弈，其中判别器的分类概率充当评论家的价值估计。
在生成器中应用演员-评论家技术（如熵正则化），以防止模式崩溃，类似于在连续动作强化学习中鼓励探索。
在 GANs 和 AC 方法中均使用批量归一化和虚拟批量归一化，以稳定训练动态并减少内部协变量偏移。
在 GANs 中评估经验回放机制，用于存储过往生成的样本，以防止判别器过拟合，尽管在渐近样本质量方面效果有限。
分析目标网络和兼容评论家在 GANs 中的适用性，指出由于缺乏时间动态性以及 GAN MDP 的零梯度特性，其效用有限。

实验结果

研究问题

RQ1GANs 是否可以被正式重新解释为一种演员-评论家强化学习的特例，其中演员对奖励无影响？
RQ2GANs 与演员-评论家方法中共同出现的优化不稳定性有哪些？如何系统性地解决？
RQ3来自演员-评论家方法的哪些稳定化技术（如熵正则化、批量归一化和经验回放）可有效转移到 GAN 训练中？
RQ4GANs 与标准强化学习环境之间的结构性差异（如缺乏状态转移和延迟奖励）如何影响目标网络等 AC 技术的适用性？
RQ5在 GAN 设置中，是否可以有意义地扩展演员-评论家理论中的兼容评论家概念，考虑到其期望奖励恒为 0.5？

主要发现

GANs 可被正式视为一种双层优化问题，其等价于演员-评论家方法，其中判别器充当评论家，生成器作为演员，且环境为无状态。
在生成器中引入熵正则化有助于防止模式崩溃，这与在连续动作强化学习中通过熵奖励鼓励探索的机制类似。
批量归一化和虚拟批量归一化在 GANs 和演员-评论家方法中均显著提升了训练稳定性，尤其在深层网络中效果明显。
在 GANs 中测试了经验回放机制以存储过往生成样本，但未能生成渐近正确的样本，表明将离策略经验回放应用于 GANs 存在局限性。
目标网络在 GANs 中适用性较低，原因在于缺乏时间动态性，且判别器损失退化为标准回归问题，从而不再需要目标网络。
兼容评论家的概念无法自然扩展至 GANs，因为任何策略的真实值始终为 0.5，导致策略梯度为零，这与对抗训练的目标相矛盾。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。