[论文解读] Maximum Entropy Distributions: Bit Complexity and Stability
本文建立了在一般离散支撑上,最大熵分布的ε-最优对偶解的位复杂度为poly(m, log 1/ε),证明了这些分布既在计算上可行,又在边际向量扰动下具有稳定性。该结果使得在秩-1情形下能够以多项式时间计算最大熵分布和Brascamp-Lieb常数,解决了高维设置下关于简洁性和鲁棒性的长期悬而未决问题。
Maximum entropy distributions with discrete support in $m$ dimensions arise in machine learning, statistics, information theory, and theoretical computer science. While structural and computational properties of max-entropy distributions have been extensively studied, basic questions such as: Do max-entropy distributions over a large support (e.g., $2^m$) with a specified marginal vector have succinct descriptions (polynomial-size in the input description)? and: Are entropy maximizing distributions "stable" under the perturbation of the marginal vector? have resisted a rigorous resolution. Here we show that these questions are related and resolve both of them. Our main result shows a ${ m poly}(m, \log 1/\varepsilon)$ bound on the bit complexity of $\varepsilon$-optimal dual solutions to the maximum entropy convex program -- for very general support sets and with no restriction on the marginal vector. Applications of this result include polynomial time algorithms to compute max-entropy distributions over several new and old polytopes for any marginal vector in a unified manner, a polynomial time algorithm to compute the Brascamp-Lieb constant in the rank-1 case. The proof of this result allows us to show that changing the marginal vector by $δ$ changes the max-entropy distribution in the total variation distance roughly by a factor of ${ m poly}(m, \log 1/δ)\sqrtδ$ -- even when the size of the support set is exponential. Together, our results put max-entropy distributions on a mathematically sound footing -- these distributions are robust and computationally feasible models for data.
研究动机与目标
- 解决关于在大支撑集(例如2^m)上最大熵分布是否具有简洁表示的开放问题。
- 研究最大熵分布在边际向量扰动下的稳定性。
- 在秩-1情形下建立最大熵分布和Brascamp-Lieb常数的可计算性。
- 为利用位复杂度界在不同多面体上统一计算最大熵分布提供框架。
- 证明边际向量的微小变化会导致结果最大熵分布的总变差距离有界变化。
提出的方法
- 推导出最大熵凸规划的ε-最优对偶解的位复杂度上界为poly(m, log 1/ε),且与支撑集大小无关。
- 利用对偶性,通过指数族形式表示最大熵分布:q_α ∝ exp(⟨α, y*⟩),其中y*为对偶解。
- 采用基于高效可计算对偶近似值的近似次梯度预言机的浅层切椭球法。
- 利用对偶变量中对数配分函数的多项式有界性,实现高效优化。
- 使用分离预言机和子空间识别技术处理非满维多面体。
- 通过实稳定多项式与凹性,将最坏情况Brascamp-Lieb常数的计算归约为有限支撑上的最大熵规划。
实验结果
研究问题
- RQ1在大离散支撑集(例如大小为2^m)上的最大熵分布是否具有关于m和log(1/ε)的多项式位复杂度的简洁表示?
- RQ2当边际向量扰动δ时,最大熵分布之间的总变差距离如何变化?
- RQ3对于一般多面体,即使边际向量位于边际多面体的边界或附近,最大熵分布是否仍可在多项式时间内计算?
- RQ4在秩-1情形下,最坏情况Brascamp-Lieb常数是否可在多项式时间内计算?
- RQ5最大熵分布的位复杂度与稳定性之间存在何种关系?
主要发现
- 最大熵规划的ε-最优对偶解的位复杂度被限制在poly(m, log 1/ε)以内,与支撑集大小无关。
- 边际向量的δ扰动导致对应最大熵分布之间的总变差距离变化不超过poly(m, log 1/δ) × √δ。
- 对于任意边际向量,最大熵分布均可在多项式时间内计算,即使该向量位于边际多面体的边界上。
- 在秩-1情形下,最坏情况Brascamp-Lieb常数可通过约化为最大熵规划在多项式时间内计算。
- 对偶规划中配分函数的对数在对偶变量中是多项式有界的,使得通过椭球法实现高效优化成为可能。
- 该框架统一了在各种多面体(包括支撑集指数级大的多面体)上计算最大熵分布的方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。