QUICK REVIEW

[论文解读] Backpropagation through the Void: Optimizing control variates for black-box gradient estimation

Will Grathwohl, Dami Choi|arXiv (Cornell University)|Oct 31, 2017

Reinforcement Learning in Robotics参考文献 26被引用 99

一句话总结

本文介绍了 LAX、RELAX 和 DLAX 梯度估计器，它们学习基于神经网络的控制变差（control variates），以获得无偏、低方差的黑箱函数梯度，适用于离散和连续变量，并应用于离散潜变量模型和强化学习。

ABSTRACT

Gradient-based optimization is the foundation of deep learning and reinforcement learning. Even when the mechanism being optimized is unknown or not differentiable, optimization using high-variance or biased gradient estimates is still often the best strategy. We introduce a general framework for learning low-variance, unbiased gradient estimators for black-box functions of random variables. Our method uses gradients of a neural network trained jointly with model parameters or policies, and is applicable in both discrete and continuous settings. We demonstrate this framework for training discrete latent-variable models. We also give an unbiased, action-conditional extension of the advantage actor-critic reinforcement learning algorithm.

研究动机与目标

在目标函数是黑箱或不可微分时，激发基于梯度的优化。
建立一个统一框架，使用代理神经网络来构建控制变差。
推导结合 REINFORCE、重参数化和学习到的控制变差的无偏梯度估计器。
通过松弛与条件重参数化，将该方法扩展到离散变量。
展示在离散潜变量模型和强化学习中的适用性。

提出的方法

构造一个可微的代理函数 c_phi 来近似 f(b)，通过将 REINFORCE 与重参数化项结合，形成 LAX 梯度估计器。
通过使用无偏估计来最小化梯度方差，联合优化代理 c_phi 与模型参数。
使用松弛的连续变量和 Gumbel-软最大技巧将其扩展到离散变量，得到 DLAX 估计量。
通过在放松变量 z 和有条件放松变量 tilde{z} 上评估代理，从而对 RELAX 进行进一步细化，保持无偏性。
通过提出基于 LAX 的强化学习梯度，将控制变差设计为随动作相关且可微的形式，以应用于强化学习。
讨论控制变差的结构设计，以利用 f 的已知结构（例如与 REBAR/CONCRETE 松弛的联系）。

实验结果

研究问题

RQ1是否可以学习一个神经代理来作为黑箱梯度估计的低方差控制变差？
RQ2如何将 REINFORCE 与可训练的代理结合起来，在降低方差的同时保持无偏性？
RQ3是否可通过连续松弛和条件重参数化将该方法扩展到离散变量？
RQ4与现有估计器相比，所学到的控制变差在离散潜变量训练和强化学习任务中的表现如何？

主要发现

基于可微代理的梯度估计（LAX）通过结合 REINFORCE 与重参数化，产生无偏梯度，且方差可能降低。
联动优化模型参数和代理控制器可以直接最小化梯度方差。
DLAX 和 RELAX 的扩展使用松弛和条件重参数化为离散变量提供无偏、低方差的估计，在离散 VAE 和 RL 任务中提高性能。
实证结果显示，在 MNIST/Omniglot 的离散 VAE 上提高了训练速度和收敛性，在 RL 环境中提升了样本效率。
RELAX 允许灵活的、可学习的代理，在所报告的实验中在收敛速度方面可超过如 REBAR 等早期方法。
该框架将梯度估计推广到没有可微分松弛的黑箱目标。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。