Skip to main content
QUICK REVIEW

[论文解读] Learning non-Gaussian graphical models via Hessian scores and triangular transport

Ricardo Baptista, Youssef Marzouk|arXiv (Cornell University)|Jan 8, 2021
Bayesian Modeling and Causal Inference参考文献 64被引用 1
一句话总结

该论文提出了一种名为 sing 的新算法,通过利用联合对数密度的 Hessian 分数和三角形传输映射,学习连续、非高斯图形模型的马尔可夫结构。它通过传输映射实现确定性耦合以估计密度,并利用映射中的稀疏性来恢复真实图结构,即使在密度近似存在偏差的情况下也能实现一致的结构恢复,且在非高斯和混沌动力系统数据上表现稳健。

ABSTRACT

Undirected probabilistic graphical models represent the conditional dependencies, or Markov properties, of a collection of random variables. Knowing the sparsity of such a graphical model is valuable for modeling multivariate distributions and for efficiently performing inference. While the problem of learning graph structure from data has been studied extensively for certain parametric families of distributions, most existing methods fail to consistently recover the graph structure for non-Gaussian data. Here we propose an algorithm for learning the Markov structure of continuous and non-Gaussian distributions. To characterize conditional independence, we introduce a score based on integrated Hessian information from the joint log-density, and we prove that this score upper bounds the conditional mutual information for a general class of distributions. To compute the score, our algorithm SING estimates the density using a deterministic coupling, induced by a triangular transport map, and iteratively exploits sparse structure in the map to reveal sparsity in the graph. For certain non-Gaussian datasets, we show that our algorithm recovers the graph structure even with a biased approximation to the density. Among other examples, we apply SING to learn the dependencies between the states of a chaotic dynamical system with local interactions.

研究动机与目标

  • 解决连续、非高斯图形模型中缺乏一致结构学习方法的问题。
  • 提出一种基于积分 Hessian 信息的评分方法,该方法对一般非高斯分布的条件互信息具有上界。
  • 通过利用将数据与标准高斯分布确定性耦合的传输映射中的稀疏性,实现稀疏图结构的恢复。
  • 在非高斯设定下,证明方法对有偏密度近似仍具鲁棒性。
  • 将该方法应用于真实世界问题,如具有局部相互作用的混沌动力系统。

提出的方法

  • 提出一种基于联合对数密度的积分平方 Hessian 的 Hessian 分数,该分数对条件互信息具有上界。
  • 使用三角形传输映射将数据分布与标准高斯分布确定性耦合,从而在无需蒙特卡洛采样的情况下实现密度估计。
  • 通过带稀疏性促进正则化的多项式混沌展开来估计传输映射,以揭示结构稀疏性。
  • 对 Hessian 分数估计值应用阈值处理,并利用渐近标准误进行统计推断。
  • 采用类似坐标下降的算法,通过利用映射 Hessian 中的稀疏性,迭代优化传输映射和图结构。
  • 通过对变量对使用并集界,确保边集恢复的渐近一致性。

实验结果

研究问题

  • RQ1Hessian 分数能否在非高斯分布中一致地估计条件独立性?
  • RQ2具有稀疏结构的三角形传输映射能否揭示非高斯数据中的潜在图稀疏性?
  • RQ3当密度估计存在偏差时,该方法是否仍保持一致性?
  • RQ4该算法能否在具有局部相互作用的混沌动力系统中恢复真实图结构?
  • RQ5与现有方法相比,该方法在非高斯数据上的鲁棒性和准确性如何?

主要发现

  • 所提出的 Hessian 分数对一类广义非高斯分布的条件互信息具有上界,为结构学习提供了有效评分。
  • 该算法在边集恢复中实现了渐近一致性:随着样本量增加,无法恢复真实图的概率趋于零。
  • 即使在有偏密度近似下,该方法仍能成功恢复非高斯数据集的图结构,表现出良好的鲁棒性。
  • 在具有局部相互作用的混沌动力系统中,sing 能够从有限样本中准确恢复真实的依赖结构。
  • 内存使用量随维度和多项式阶数增长,但保持在可管理范围内,对于 d=12 和 β=2,首次迭代的内存使用量低于 100 MB。
  • 理论分析表明,在正则性条件下,假阳性率和假阴性率均收敛于零,从而确保了一致的结构学习。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。