[论文解读] Backpropagation through the Void: Optimizing control variates for black-box gradient estimation
本文介绍了 LAX、RELAX 和 DLAX 梯度估计器,它们学习基于神经网络的控制变差(control variates),以获得无偏、低方差的黑箱函数梯度,适用于离散和连续变量,并应用于离散潜变量模型和强化学习。
Gradient-based optimization is the foundation of deep learning and reinforcement learning. Even when the mechanism being optimized is unknown or not differentiable, optimization using high-variance or biased gradient estimates is still often the best strategy. We introduce a general framework for learning low-variance, unbiased gradient estimators for black-box functions of random variables. Our method uses gradients of a neural network trained jointly with model parameters or policies, and is applicable in both discrete and continuous settings. We demonstrate this framework for training discrete latent-variable models. We also give an unbiased, action-conditional extension of the advantage actor-critic reinforcement learning algorithm.
研究动机与目标
- 在目标函数是黑箱或不可微分时,激发基于梯度的优化。
- 建立一个统一框架,使用代理神经网络来构建控制变差。
- 推导结合 REINFORCE、重参数化和学习到的控制变差的无偏梯度估计器。
- 通过松弛与条件重参数化,将该方法扩展到离散变量。
- 展示在离散潜变量模型和强化学习中的适用性。
提出的方法
- 构造一个可微的代理函数 c_phi 来近似 f(b),通过将 REINFORCE 与重参数化项结合,形成 LAX 梯度估计器。
- 通过使用无偏估计来最小化梯度方差,联合优化代理 c_phi 与模型参数。
- 使用松弛的连续变量和 Gumbel-软最大技巧将其扩展到离散变量,得到 DLAX 估计量。
- 通过在放松变量 z 和有条件放松变量 tilde{z} 上评估代理,从而对 RELAX 进行进一步细化,保持无偏性。
- 通过提出基于 LAX 的强化学习梯度,将控制变差设计为随动作相关且可微的形式,以应用于强化学习。
- 讨论控制变差的结构设计,以利用 f 的已知结构(例如与 REBAR/CONCRETE 松弛的联系)。
实验结果
研究问题
- RQ1是否可以学习一个神经代理来作为黑箱梯度估计的低方差控制变差?
- RQ2如何将 REINFORCE 与可训练的代理结合起来,在降低方差的同时保持无偏性?
- RQ3是否可通过连续松弛和条件重参数化将该方法扩展到离散变量?
- RQ4与现有估计器相比,所学到的控制变差在离散潜变量训练和强化学习任务中的表现如何?
主要发现
- 基于可微代理的梯度估计(LAX)通过结合 REINFORCE 与重参数化,产生无偏梯度,且方差可能降低。
- 联动优化模型参数和代理控制器可以直接最小化梯度方差。
- DLAX 和 RELAX 的扩展使用松弛和条件重参数化为离散变量提供无偏、低方差的估计,在离散 VAE 和 RL 任务中提高性能。
- 实证结果显示,在 MNIST/Omniglot 的离散 VAE 上提高了训练速度和收敛性,在 RL 环境中提升了样本效率。
- RELAX 允许灵活的、可学习的代理,在所报告的实验中在收敛速度方面可超过如 REBAR 等早期方法。
- 该框架将梯度估计推广到没有可微分松弛的黑箱目标。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。