Skip to main content
QUICK REVIEW

[论文解读] Backpropagation through the Void: Optimizing control variates for black-box gradient estimation

Will Grathwohl, Dami Choi|arXiv (Cornell University)|Oct 31, 2017
Reinforcement Learning in Robotics参考文献 26被引用 99
一句话总结

本文介绍了 LAX、RELAX 和 DLAX 梯度估计器,它们学习基于神经网络的控制变差(control variates),以获得无偏、低方差的黑箱函数梯度,适用于离散和连续变量,并应用于离散潜变量模型和强化学习。

ABSTRACT

Gradient-based optimization is the foundation of deep learning and reinforcement learning. Even when the mechanism being optimized is unknown or not differentiable, optimization using high-variance or biased gradient estimates is still often the best strategy. We introduce a general framework for learning low-variance, unbiased gradient estimators for black-box functions of random variables. Our method uses gradients of a neural network trained jointly with model parameters or policies, and is applicable in both discrete and continuous settings. We demonstrate this framework for training discrete latent-variable models. We also give an unbiased, action-conditional extension of the advantage actor-critic reinforcement learning algorithm.

研究动机与目标

  • 在目标函数是黑箱或不可微分时,激发基于梯度的优化。
  • 建立一个统一框架,使用代理神经网络来构建控制变差。
  • 推导结合 REINFORCE、重参数化和学习到的控制变差的无偏梯度估计器。
  • 通过松弛与条件重参数化,将该方法扩展到离散变量。
  • 展示在离散潜变量模型和强化学习中的适用性。

提出的方法

  • 构造一个可微的代理函数 c_phi 来近似 f(b),通过将 REINFORCE 与重参数化项结合,形成 LAX 梯度估计器。
  • 通过使用无偏估计来最小化梯度方差,联合优化代理 c_phi 与模型参数。
  • 使用松弛的连续变量和 Gumbel-软最大技巧将其扩展到离散变量,得到 DLAX 估计量。
  • 通过在放松变量 z 和有条件放松变量 tilde{z} 上评估代理,从而对 RELAX 进行进一步细化,保持无偏性。
  • 通过提出基于 LAX 的强化学习梯度,将控制变差设计为随动作相关且可微的形式,以应用于强化学习。
  • 讨论控制变差的结构设计,以利用 f 的已知结构(例如与 REBAR/CONCRETE 松弛的联系)。

实验结果

研究问题

  • RQ1是否可以学习一个神经代理来作为黑箱梯度估计的低方差控制变差?
  • RQ2如何将 REINFORCE 与可训练的代理结合起来,在降低方差的同时保持无偏性?
  • RQ3是否可通过连续松弛和条件重参数化将该方法扩展到离散变量?
  • RQ4与现有估计器相比,所学到的控制变差在离散潜变量训练和强化学习任务中的表现如何?

主要发现

  • 基于可微代理的梯度估计(LAX)通过结合 REINFORCE 与重参数化,产生无偏梯度,且方差可能降低。
  • 联动优化模型参数和代理控制器可以直接最小化梯度方差。
  • DLAX 和 RELAX 的扩展使用松弛和条件重参数化为离散变量提供无偏、低方差的估计,在离散 VAE 和 RL 任务中提高性能。
  • 实证结果显示,在 MNIST/Omniglot 的离散 VAE 上提高了训练速度和收敛性,在 RL 环境中提升了样本效率。
  • RELAX 允许灵活的、可学习的代理,在所报告的实验中在收敛速度方面可超过如 REBAR 等早期方法。
  • 该框架将梯度估计推广到没有可微分松弛的黑箱目标。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。