[论文解读] A Connection between Generative Adversarial Networks, Inverse Reinforcement Learning, and Energy-Based Models
论文表明,当生成器密度可评估时,某些 GAN 在数学上等价于最大熵逆强化学习,并且这将 GAN 与能量基模型联系起来,从而在 GAN、IRL 和 EBM 之间可转移的思想。
Generative adversarial networks (GANs) are a recently proposed class of generative models in which a generator is trained to optimize a cost function that is being simultaneously learned by a discriminator. While the idea of learning cost functions is relatively new to the field of generative modeling, learning costs has long been studied in control and reinforcement learning (RL) domains, typically for imitation learning from demonstrations. In these fields, learning cost function underlying observed behavior is known as inverse reinforcement learning (IRL) or inverse optimal control. While at first the connection between cost learning in RL and cost learning in generative modeling may appear to be a superficial one, we show in this paper that certain IRL methods are in fact mathematically equivalent to GANs. In particular, we demonstrate an equivalence between a sample-based algorithm for maximum entropy IRL and a GAN in which the generator's density can be evaluated and is provided as an additional input to the discriminator. Interestingly, maximum entropy IRL is a special case of an energy-based model. We discuss the interpretation of GANs as an algorithm for training energy-based models, and relate this interpretation to other recent work that seeks to connect GANs and EBMs. By formally highlighting the connection between GANs, IRL, and EBMs, we hope that researchers in all three communities can better identify and apply transferable ideas from one domain to another, particularly for developing more stable and scalable algorithms: a major challenge in all three domains.
研究动机与目标
- 激发并形式化 GAN、IRL 与 EBM 之间的联系。
- 证明当生成器密度可评估时,专门化的 GAN 判别器与 MaxEnt IRL 一致。
- 证明 MaxEnt IRL 是能量基模型的特例。
- 推导出 GAN 如何通过无偏分区函数估计来训练 EBM。
- 讨论在三个领域之间稳定性与思想转移的含义。
提出的方法
- 定义一种使用生成器密度 q(τ) 和玻尔兹曼能量 cθ(τ) 的 GAN 判别器的特殊形式。
- 给出判别器 Dτ = (1/Z exp(-cθ(τ)))/(1/Z exp(-cθ(τ)) + q(τ)),使判别器在最佳时与生成器无关。
- 证明当 Z 被视为分区函数的重要性采样估计量时,GAN 目标与 MaxEnt IRL 目标相匹配。
- 推导出生成器损失等于 log Z 加上来自 MaxEnt IRL 的采样器(熵正则化)目标。
- 通过在生成器密度可用时推导无偏分区函数估计,扩展将该联系应用于训练 EBM。
- 讨论使用具备密度的生成器(如自回归模型)以实现稳定训练的含义。
实验结果
研究问题
- RQ1具有可评估生成器密度的 GAN 能否复现实验 MaxEnt IRL 目标?
- RQ2哪种判别器形式能实现 GAN 训练与 MaxEnt IRL 的等价?
- RQ3在已知生成器密度时,GAN 如何与训练能量基模型相关?
- RQ4这些联系是否能为跨 GAN、IRL 和 EBM 的更稳定、可扩展的训练提供借鉴?
主要发现
- 具有可评估密度的生成器的 GAN 等价于基于样本的 MaxEnt IRL 算法。
- 最优判别器可写成包含生成器密度的形式,在最优时使判别器与生成器无关。
- MaxEnt IRL 是以代价函数作为能量的能量基模型的特例;当生成器密度可用时,GAN 可以训练 EBM。
- 分区函数 Z 通过重要性采样来估计,其梯度与 IRL 目标一致。
- 生成器损失等于 MaxEnt IRL 的采样器损失,将对抗性训练与熵正则化的策略优化联系起来。
- 这为在 GAN、IRL 和 EBM 之间转移稳定性和可扩展性思想提供了正式化路径。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。