Skip to main content
QUICK REVIEW

[论文解读] Variational inference via radial transport

Luca Ghafourpour, Sinho Chewi|arXiv (Cornell University)|Feb 19, 2026
Geometric Analysis and Curvature Flows被引用 0
一句话总结

简要结论:论文提出 radVI,一种基于径向传输的变分推断插件,原理是优化后验的径向分布轮廓,具备理论收敛性保证,并与高斯 VI 与拉普拉斯近似兼容。

ABSTRACT

In variational inference (VI), the practitioner approximates a high-dimensional distribution $π$ with a simple surrogate one, often a (product) Gaussian distribution. However, in many cases of practical interest, Gaussian distributions might not capture the correct radial profile of $π$, resulting in poor coverage. In this work, we approach the VI problem from the perspective of optimizing over these radial profiles. Our algorithm radVI is a cheap, effective add-on to many existing VI schemes, such as Gaussian (mean-field) VI and Laplace approximation. We provide theoretical convergence guarantees for our algorithm, owing to recent developments in optimization over the Wasserstein space--the space of probability distributions endowed with the Wasserstein distance--and new regularity properties of radial transport maps in the style of Caffarelli (2000).

研究动机与目标

  • 通过将目标聚焦于径向分布轮廓而非完整高斯族来改进变分近似的动机。
  • 通过从参考高斯学习径向传输,开发一个可行的算法来计算径向 VI 最小化解 pi_rad^*。
  • 为 radVI 的存在性、正则性和收敛性提供理论保障。
  • 展示 radVI 作为可以改进现有 VI 方法的插件,并可用作预条件器。
  • 展示在各向同性与各向异性目标,以及包括重尾分布和非光滑分布上的实际性能。

提出的方法

  • 将 radVI 目标定义为 min_{mu in C_rad} KL(mu || pi) with pi ~ exp(-V) 且 C_rad 为径向对称测度集合。
  • 将径向测度表示为标准高斯经径向映射 T_rad 的推前,并限制在带有基函数 Psi_j 的参数族 T_J 内,以近似径向传输。
  • 将 KL(T_lambda # rho || pi) 作为对 lambda in R^{J+1}_+ 的优化目标,并利用传输的 L^2(rho) 距离与一个加权的欧几里得度量之间的等同性,使梯度优化可行。
  • 推导普适近似保证,表明在 J 及其他参数按适当尺度放大时,存在接近最优的 T_hat in T_J(定理 4.1)。
  • 给出 radVI 梯度方法的收敛性保证(定理 4.3)以及在随机梯度下的稳定性(定理 4.6)。
  • 可选地将 radVI 作为在高斯 VI 或拉普拉斯近似之上的 whitening/条件化步骤(算法 2)。
Figure 1: Convergence of radVI for various target distributions. See Table 1 for final-iterate comparisons between GVI and LA.
Figure 1: Convergence of radVI for various target distributions. See Table 1 for final-iterate comparisons between GVI and LA.

实验结果

研究问题

  • RQ1是否可以利用径向对称性来改进对重尾或非高斯后验的变分近似?
  • RQ2一个参数化的径向传输映射族在多大程度上能逼近真实的径向极小化解 pi_rad^*,以及它的收敛性保障如何?
  • RQ3在实践中 radVI 是否能改善现有 VI 方法(高斯 VI、拉普拉斯),并且是否可以作为有效的预条件器?
  • RQ4在对数凹、对数平滑的后验下,径向极小化解及相关最优径向传输映射的正则性性质如何?
  • RQ5所提出的 radVI 方法在收敛保障方面是否对维度无关?

主要发现

Isotropic targetsGaussianLaplaceLogisticStudent-t
LA2.45e-420.001.6e325.87
GVI7.34e-48.243.961.99
radVI1.15e-45.37e-21.84e-11.19e-1
  • radVI 提供了在参数化族内对最优径向传输映射的维度无关收敛保证(定理 4.3)。
  • 径向极小化解 pi_rad^* 存在且唯一,且继承自目标 pi 的对数光滑性与强对数凹性(命题 3.2、3.4)。
  • 最优径向传输映射 T_rad^* 满足类似于 Caffarelli 的收缩估计,其径向轮廓的导数以近似维度无关的方式有界(定理 3.5)。
  • 一个普遍近似结果表明,在适当选择的字典 T_J 下,可以用 T_hat 来近似 T_rad^*,误差为 epsilon,前提是选择 R 和 J 合理(定理 4.1)。
  • radVI 在各向同性目标下显著提高了对 Wasserstein 距离的精度,相较于标准 LA 和高斯 VI,尤其在重尾分布如 Student-t 时(表 1,图 1)。
  • radVI 可以与现有基于高斯的 VI 方法结合,作为 whitening/预条件步骤,以更好地捕捉尾部行为(算法 2)。
Figure 2: Comparing learned radial profiles of radVI versus other approximation methods for learning the Student- $t$ distribution in the isotropic ( top ) and anisotropic case (bottom) .
Figure 2: Comparing learned radial profiles of radVI versus other approximation methods for learning the Student- $t$ distribution in the isotropic ( top ) and anisotropic case (bottom) .

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。