Skip to main content
QUICK REVIEW

[论文解读] Bounds on the Jensen Gap, and Implications for Mean-Concentrated Distributions

Xiang Gao, Meera Sitharam|arXiv (Cornell University)|Dec 11, 2017
Mathematical Inequalities and Applications参考文献 20被引用 39
一句话总结

本文利用函数的生长性质和分布的矩,建立了Jensen差距(即随机变量函数的期望与期望的函数之间的差值)的新上界和下界。这些边界在均值集中分布(如样本均值或统计力学中的系统)中尤为有效,能对估计偏差和热力学量的涨落提供紧密的渐近估计。

ABSTRACT

This paper gives upper and lower bounds on the gap in Jensen's inequality, i.e., the difference between the expected value of a function of a random variable and the value of the function at the expected value of the random variable. The bounds depend only on growth properties of the function and specific moments of the random variable. The bounds are particularly useful for distributions that are concentrated around the mean, a commonly occurring scenario such as the average of i.i.d. samples and in statistical mechanics.

研究动机与目标

  • 推导仅依赖于函数生长特性与分布矩的可计算上界和下界。
  • 解决在随机变量集中在其均值附近(如经验均值或统计力学中的大系统)时估计Jensen差距的挑战。
  • 为使用 $ f(\mathbb{E}[X]) $ 作为 $ \mathbb{E}[f(X)] $ 的代理估计量的估计器偏差提供通用框架,尤其适用于 $ \mathbb{E}[f(X)] $ 难以计算的情形。
  • 通过引入函数 $ f $ 的高阶矩和广义Hölder型条件,扩展现有边界,提升实际应用中的精度。
  • 通过将Jensen差距与可测量的矩量关联,改进变分推断、随机优化和热力学涨落分析中的误差估计。

提出的方法

  • 通过将 $ f(x) - f(\mu) $ 表示为 $ s(x) \cdot t(x) $ 的乘积形式来推导上界,其中 $ s(x) $ 有界,$ t(x) $ 的可积性由矩决定。
  • 利用 $ f $ 的 $ \alpha $-Hölder 连续性,将Jensen差距的上界表示为 $ M \cdot \sigma_\alpha^\alpha $,其中 $ \sigma_\alpha $ 为 $ \alpha $ 阶绝对中心矩。
  • 通过构造函数 $ t(x) $ 使得 $ f(x)/t(x) $ 远离零,建立下界,并将差距与 $ \sigma_\alpha^\alpha $ 或矩的组合关联。
  • 通过矩的加权和推广边界:上界使用 $ \sum a_\eta \sigma_\eta^\eta $;下界使用涉及 $ \sigma_\eta^{\eta} $ 的倒数形式,并进行适当归一化。
  • 将框架应用于 $ f $ 为凸或凹且 $ f' $ 具有受控增长的情形,即使 $ f $ 不全局光滑,也能获得边界。
  • 在关键应用中展示该方法:经验均值估计中的偏差、热力学功的涨落、变分推断,表明基于矩的边界可提供渐近收敛速率。

实验结果

研究问题

  • RQ1如何仅利用 $ f $ 的生长行为和分布的矩来界定Jensen差距?
  • RQ2对于集中在均值附近的分布(如i.i.d.变量的样本均值或统计力学中的大系统),Jensen差距的渐近行为如何?
  • RQ3通过引入高阶矩和广义Hölder条件,而非依赖Lipschitz或二次假设,能否获得更紧的边界?
  • RQ4与现有边界相比,所提边界的紧致性和适用性如何,特别是在非光滑或重尾函数情形?
  • RQ5这些边界在机器学习、统计推断和统计力学中如何改进误差估计?

主要发现

  • 论文推导出 $ \alpha $-Hölder 连续函数 $ f $ 的上界 $ \left| \mathbb{E}[f(X)] - f(\mathbb{E}[X]) \right| \leq M \cdot \sigma_\alpha^\alpha $,其中 $ \sigma_\alpha $ 为 $ \alpha $ 阶绝对中心矩。
  • 在 $ f $ 满足适当的生长条件时,通过 $ t(x) $ 的对偶构造,建立了下界 $ \left| \mathbb{E}[f(X)] - f(\mathbb{E}[X]) \right| \geq M \cdot \sigma_\alpha^\alpha $。
  • 边界对均值集中分布(如i.i.d.变量的经验均值)被证明是渐近紧的,差距以 $ O(N^{-\alpha/2}) $ 速率衰减,其中 $ N $ 为样本数。
  • 该框架可推广至矩的加权和:上界形式为 $ \mathcal{J} \leq \sup \frac{f(x)}{t(x)} \cdot \sum a_\eta \sigma_\eta^\eta $,从而实现更优逼近。
  • 对于下界,方法得到 $ \mathcal{J} \geq \inf \frac{f(x)}{t(x)} \cdot \frac{\sigma_{\alpha/2}^\alpha}{\sum a_\eta \sigma_{\alpha - \eta}^{\alpha - \eta}} $,并扩展至多术语调和平均形式。
  • 在关键应用中得到验证:$ f(\bar{X}) $ 作为 $ \mathbb{E}[f(X)] $ 估计量的偏差、热力学功的涨落、变分推断,表明其在误差估计中具有实际效用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。