[论文解读] Conjugate-Computation Variational Inference : Converting Variational Inference in Non-Conjugate Models to Inferences in Conjugate Models
本文提出了共轭-计算变分推断(CVI),一种新颖的变分推断算法,通过将非共轭项的随机梯度更新与共轭项的高效共轭计算相结合,实现更快速的收敛。通过在均值参数空间中采用随机镜像下降法进行更新,CVI 使每一步梯度更新均可通过共轭计算实现,从而在高斯过程分类和矩阵分解等多个模型上显著优于忽略共轭结构的方法。
Variational inference is computationally challenging in models that contain both conjugate and non-conjugate terms. Methods specifically designed for conjugate models, even though computationally efficient, find it difficult to deal with non-conjugate terms. On the other hand, stochastic-gradient methods can handle the non-conjugate terms but they usually ignore the conjugate structure of the model which might result in slow convergence. In this paper, we propose a new algorithm called Conjugate-computation Variational Inference (CVI) which brings the best of the two worlds together -- it uses conjugate computations for the conjugate terms and employs stochastic gradients for the rest. We derive this algorithm by using a stochastic mirror-descent method in the mean-parameter space, and then expressing each gradient step as a variational inference in a conjugate model. We demonstrate our algorithm's applicability to a large class of models and establish its convergence. Our experimental results show that our method converges much faster than the methods that ignore the conjugate structure of the model.
研究动机与目标
- 解决具有共轭项和非共轭项的模型中变分推断的计算低效问题。
- 克服现有方法的局限性:要么忽略共轭结构(导致收敛缓慢),要么对非共轭项采用复杂近似。
- 统一共轭模型的计算效率与非共轭部分随机梯度方法的灵活性。
- 开发一种通用推断算法,在共轭设置下退化为标准 VMP,并保持收敛性保证。
提出的方法
- 在均值参数空间中提出一种随机镜像下降方法,使梯度步长可通过共轭计算实现。
- 将每个梯度更新表示为共轭模型中的变分推断问题,利用闭式后验更新。
- 将该方法应用于被划分为共轭与非共轭部分的模型,并通过消息传递将方法扩展至条件共轭模型。
- 采用均场变分近似,并制定更新方式,以保持并利用共轭结构。
- 通过将随机梯度步骤转化为指数族共轭模型中的贝叶斯推断,推导出该算法。
- 在较弱正则性条件下建立收敛性,并将 CVI 与 VMP 和 SVI 等现有方法联系起来。
实验结果
研究问题
- RQ1我们能否设计一种变分推断算法,在处理非共轭似然时仍保持共轭模型的计算效率?
- RQ2如何重新表述随机梯度更新,以利用共轭计算,从而提升收敛速度?
- RQ3所提方法能否推广至同时包含共轭与非共轭组件的模型,包括条件共轭结构?
- RQ4将共轭计算整合到随机梯度更新中,是否能带来比黑箱随机方法更快的收敛速度?
- RQ5在非共轭设置下,该算法的理论收敛行为如何?
主要发现
- 在高斯过程分类和多类逻辑回归上,CVI 的收敛速度显著快于忽略共轭结构的方法。
- 在 a7a 数据集上,CVI 于 0.95 秒内收敛,优于 S&K Alg2(0.74 秒)和 S&K FG(1.19 秒),且对数似然相当。
- 在伽马因子模型中,CVI 将训练时间从 Knowles 的 210.03 秒减少至 50.91 秒,同时保持了具有竞争力的对数似然。
- 在 MNIST 上使用伽马矩阵分解时,CVI 在 1692.64 秒内达到测试损失 0.000119,优于 ADAM(1776.83 秒内损失 0.000125)。
- 在所有基准数据集(包括 colon-cancer 和 Covtype-scale)上,CVI 达到了接近最优的性能,且时间开销极低。
- 该算法收敛至接近精确后验的解,所有数据集上的对数似然值均与最佳基线相差不超过 0.01。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。