[论文解读] The Concrete Distribution: A Continuous Relaxation of Discrete Random Variables
本文介绍 Concrete 随机变量,这是在简单形上对离散变量的连续放松,具有闭式密度和重参数化,能够在具有离散节点的随机计算图上进行低方差的基于梯度的优化。
The reparameterization trick enables optimizing large scale stochastic computation graphs via gradient descent. The essence of the trick is to refactor each stochastic node into a differentiable function of its parameters and a random variable with fixed distribution. After refactoring, the gradients of the loss propagated by the chain rule through the graph are low variance unbiased estimators of the gradients of the expected loss. While many continuous random variables have such reparameterizations, discrete random variables lack useful reparameterizations due to the discontinuous nature of discrete states. In this work we introduce Concrete random variables---continuous relaxations of discrete random variables. The Concrete distribution is a new family of distributions with closed form densities and a simple reparameterization. Whenever a discrete stochastic node of a computation graph can be refactored into a one-hot bit representation that is treated continuously, Concrete stochastic nodes can be used with automatic differentiation to produce low-variance biased gradients of objectives (including objectives that depend on the log-probability of latent stochastic nodes) on the corresponding discrete graph. We demonstrate the effectiveness of Concrete relaxations on density estimation and structured prediction tasks using neural networks.
研究动机与目标
- 推动对包含离散节点的随机计算图的基于梯度的优化。
- 引入对简单形上离散变量的连续放松(Concrete 分布)。
- 展示 Concrete 放松通过重参数化为离散图提供低方差的带偏梯度。
- 在使用神经网络的密度估计和结构预测任务上证明其有效性。
提出的方法
- 将 Concrete 分布定义为简单形上单热离散变量的连续放松,参数为 alpha 和温度 lambda。
- 推导在简单形上的闭式密度 p_alpha,lambda,并通过 Gumbel 扰动建立重参数化。
- 解释在训练过程中如何用 Concrete 节点替换离散节点,并相应放松对数概率项。
- 在 MNIST 和 Omniglot 任务上将 Concrete 放松与基于评分函数的估计器(如 VIMCO/NVIL)进行比较。
- 讨论温度的选择及其对放松的离散性和可整性间隙的影响。
实验结果
研究问题
- RQ1离散变量的连续放松是否能实现对具有离散节点的随机图进行基于梯度的优化?
- RQ2Concrete 分布是否提供了在具有离散潜变量的神经网络训练中可实用的闭式密度重参数化?
- RQ3与最先进估计器相比,Concrete 放松在密度估计和结构预测中的表现如何?
- RQ4温度(lambda)对离散性与模型性能的经验影响是什么?
主要发现
- Concrete 放松为随机计算图中的离散随机节点提供低方差梯度。
- Concrete 分布具有闭式密度,并使用 Gumbel 扰动和 softmax 的直接重参数化。
- 在实验上,Concrete 放松在 MNIST 和 Omniglot 的密度估计中与 VIMCO/NVIL 竞争,且在结构预测情景中通常表现更好。
- 结果表明温度控制离散性:较低温度趋向离散行为,较高温度保持内部解,影响可整性差距。
- Concrete 分布的离散零温度极限对应原始离散分布,使在测试时能够对离散图进行评估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。