Skip to main content
QUICK REVIEW

[论文解读] Convex Potential Flows: Universal Probability Distributions with Optimal Transport and Convex Optimization

Chin-Wei Huang, Ricky T. Q. Chen|arXiv (Cornell University)|Dec 10, 2020
Domain Adaptation and Few-Shot Learning参考文献 55被引用 26
一句话总结

本文提出了凸势流(CP-Flow),一种归一化流框架,其可逆变换通过强凸神经势函数的梯度进行参数化,从而实现通用密度逼近和最优传输。通过利用凸优化实现高效反演,并采用一种新颖的低内存梯度估计器计算雅可比行列式的对数,CP-Flow 在密度估计和变分推断基准测试中实现了具有竞争力的似然性能,同时保持了可逆性和最优性的理论保证。

ABSTRACT

Flow-based models are powerful tools for designing probabilistic models with tractable density. This paper introduces Convex Potential Flows (CP-Flow), a natural and efficient parameterization of invertible models inspired by the optimal transport (OT) theory. CP-Flows are the gradient map of a strongly convex neural potential function. The convexity implies invertibility and allows us to resort to convex optimization to solve the convex conjugate for efficient inversion. To enable maximum likelihood training, we derive a new gradient estimator of the log-determinant of the Jacobian, which involves solving an inverse-Hessian vector product using the conjugate gradient method. The gradient estimator has constant-memory cost, and can be made effectively unbiased by reducing the error tolerance level of the convex optimization routine. Theoretically, we prove that CP-Flows are universal density approximators and are optimal in the OT sense. Our empirical results show that CP-Flow performs competitively on standard benchmarks of density estimation and variational inference.

研究动机与目标

  • 开发一种自然且具有理论基础的归一化流参数化方法,确保可逆性并实现高效计算。
  • 建立归一化流与最优传输理论之间的联系,利用凸势函数实现通用密度逼近。
  • 设计一种基于凸优化的雅可比行列式对数的梯度估计器,实现恒定内存开销和可控偏差。
  • 利用凸优化工具实现归一化流的最大似然训练,提升效率与可扩展性。
  • 证明 CP-Flow 在标准密度估计和变分推断基准测试中达到最先进性能。

提出的方法

  • 将流参数化为强凸神经势函数的梯度映射,通过构造确保可逆性。
  • 利用凸共轭对偶性,通过凸优化实现高效反演,避免迭代重参数化。
  • 通过共轭梯度法计算逆海森乘积,推导出雅可比行列式对数的新颖梯度估计器。
  • 通过调整共轭梯度求解器的绝对容差(atol)控制梯度估计器的偏差,实现近似无偏估计。
  • 将模型反演和雅可比行列式估计问题形式化为凸优化问题,降低内存和计算成本。
  • 采用输入增强或全连接结构的凸势网络,以提升表达能力和性能。

实验结果

研究问题

  • RQ1是否可以以一种自然方式参数化归一化流,使其天然保证可逆性并支持高效反演?
  • RQ2是否可以借助最优传输理论,构建一种在传输成本上既通用又最优的流?
  • RQ3是否可以利用凸优化技术,推导出一种低内存、无偏的对数雅可比行列式梯度估计器?
  • RQ4通过凸势函数参数化流是否能提升在密度估计和变分推断基准测试中的性能?
  • RQ5架构选择(如输入增强 ICNN)如何影响凸势流的性能?

主要发现

  • CP-Flow 在标准基准测试中实现了具有竞争力的对数似然性能,在 Freyfaces 数据集上的负 ELBO 为 106.53 ± 0.55 bits/dim。
  • 输入增强型 CP-Flow 变体在 Freyfaces 数据集上的负 ELBO 为 105.17 ± 0.57 bits/dim,性能优于标准 CP-Flow。
  • 梯度估计器的偏差可通过共轭梯度求解器的绝对容差(atol)进行控制,当 atol ≤ 0.001 时观察到稳定训练。
  • 每层共轭梯度迭代次数在输入维度(Miniboone 数据集为 43)处趋于饱和,表明收敛限制。
  • 将普通 ICNN 替换为输入增强或全连接 ICNN 可显著提升性能,凸显架构设计的重要性。
  • 所提出的梯度估计器相比反向传播通过随机 Lanzcos 四边形法的实现,内存效率显著更高,运行时间也大幅降低。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。