[论文解读] MuProp: Unbiased Backpropagation for Stochastic Neural Networks
MuProp 是一种用于随机神经网络的无偏梯度估计器,结合了反向传播与基于平均场网络一阶泰勒展开的控制变量,显著降低了方差。在离散潜在变量模型上,其性能优于直通法和似然比方法等有偏估计器,表现出更快的收敛速度和更好的泛化能力,尤其在 MNIST 任务中表现卓越。
Deep neural networks are powerful parametric models that can be trained efficiently using the backpropagation algorithm. Stochastic neural networks combine the power of large parametric functions with that of graphical models, which makes it possible to learn very complex distributions. However, as backpropagation is not directly applicable to stochastic networks that include discrete sampling operations within their computational graph, training such networks remains difficult. We present MuProp, an unbiased gradient estimator for stochastic networks, designed to make this task easier. MuProp improves on the likelihood-ratio estimator by reducing its variance using a control variate based on the first-order Taylor expansion of a mean-field network. Crucially, unlike prior attempts at using backpropagation for training stochastic networks, the resulting estimator is unbiased and well behaved. Our experiments on structured output prediction and discrete latent variable modeling demonstrate that MuProp yields consistently good performance across a range of difficult tasks.
研究动机与目标
- 为解决具有离散潜在变量的随机神经网络训练问题,标准反向传播因不可微的采样操作而失效。
- 开发一种无偏梯度估计器,利用反向传播的高效性并保持收敛性保证,克服直通法和似然比方法等现有有偏估计器的局限性。
- 在不依赖启发式近似的情况下,降低似然比估计器在离散随机网络中的高方差。
- 通过单一、合理的框架,有效训练同时包含连续和离散潜在变量的深度随机模型。
- 在各种结构化预测和生成建模任务中,展示一致且优越的性能,尤其在有偏方法失效或波动的场景下。
提出的方法
- 提出 MuProp 作为一种无偏梯度估计器,利用基于平均场网络一阶泰勒展开的控制变量,降低梯度估计中的方差。
- 将反向传播集成到随机计算图的平均场近似中,实现高效梯度计算的同时保持无偏性。
- 将控制变量技术应用于似然比估计器,通过减去一项使用平均场网络的确定性反向传播近似梯度的项。
- 推导出适用于具有混合随机与确定性节点的任意有向无环图(DAG)的一般公式,支持连续和离散随机变量。
- 通过一次平均场前向传播计算控制变量,确保计算效率,同时与标准似然比估计器相比显著降低梯度方差。
- 使用可微、确定性的随机计算图近似来计算控制变量,确保整体估计器保持无偏且可微。
实验结果
研究问题
- RQ1能否为具有离散潜在变量的随机神经网络设计一种无偏梯度估计器,利用反向传播降低方差?
- RQ2在复杂模型上,MuProp 与直通法和似然比方法(带方差减少)相比,在性能和收敛速度上表现如何?
- RQ3MuProp 在不同模型架构和目标函数下是否保持一致的性能,尤其在有偏估计器波动或失效的情况下?
- RQ4MuProp 能否有效应用于连续和离散随机变量,同时保持无偏性和计算效率?
- RQ5使用平均场近似作为控制变量在多大程度上提升了深度随机网络训练的稳定性和样本效率?
主要发现
- 在 MNIST 上,MuProp 在最终变分下界方面始终优于带方差减少的似然比估计器(NVIL),在所有测试的模型架构中均取得更优的测试分数。
- 在分类模型(200×10)上,MuProp 的收敛速度约为 NVIL 的 3–4 倍,表明尽管仅使用均值减法作为控制变量,其梯度方差仍显著更低。
- 直通法(ST)和 1/2 估计器表现不一致:ST 在 SBN 模型上优于 1/2,而 1/2 在分类模型上表现更优,凸显其不稳定性及对模型结构的敏感性。
- 在 SBN 200-784 模型上,MuProp 的测试负变分下界为 113.1,优于 NVIL 的 113.5,表明其收敛更快,性能相当或更优。
- 在 fDARN 200-784 模型上,MuProp 达到 92.9,优于 NVIL(92.1),显著超越 ST(110.2)和 1/2(94.2),证实其鲁棒性和可靠性。
- MuProp 在所有任务中表现稳定可靠,而有偏估计器则表现出高方差和不可预测的行为,尤其在更深或更复杂的模型中更为明显。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。