Skip to main content
QUICK REVIEW

[论文解读] Online estimation of the geometric median in Hilbert spaces : non asymptotic confidence balls

Hervé Cardot, Peggy Cénac|arXiv (Cornell University)|Jan 27, 2015
Statistical Methods and Inference参考文献 20被引用 42
一句话总结

本文提出了一种基于平均随机梯度算法的希尔伯特空间中几何中位数的在线递归估计器的非渐近置信球。它建立了改进的 $L^2$ 收敛速率,并推导出关于鞅项的新指数不等式,从而在高置信度下实现了围绕真实中位数的有限样本概率边界。

ABSTRACT

Estimation procedures based on recursive algorithms are interesting and powerful techniques that are able to deal rapidly with (very) large samples of high dimensional data. The collected data may be contaminated by noise so that robust location indicators, such as the geometric median, may be preferred to the mean. In this context, an estimator of the geometric median based on a fast and efficient averaged non linear stochastic gradient algorithm has been developed by Cardot, C\\'enac and Zitt (2013). This work aims at studying more precisely the non asymptotic behavior of this algorithm by giving non asymptotic confidence balls. This new result is based on the derivation of improved $L^2$ rates of convergence as well as an exponential inequality for the martingale terms of the recursive non linear Robbins-Monro algorithm.

研究动机与目标

  • 为高维或函数型数据设置下的在线几何中位数估计提供有限样本概率保证。
  • 改进希尔伯特空间中递归几何中位数估计器的现有 $L^2$ 收敛速率。
  • 推导出非线性随机梯度算法中出现的准鞅序列的新指数不等式。
  • 为平均随机梯度估计器的几何中位数建立非渐近置信球。
  • 通过量化递归算法在大规模或流式数据中相对于真实中位数的偏差行为,支持其在实际中的应用。

提出的方法

  • 使用步长满足 $\gamma_n \propto n^{-\alpha}$($\alpha < 1$)的平均非线性随机梯度算法,递归估计希尔伯特空间中的几何中位数。
  • 应用鞅分解分析估计器相对于真实中位数的偏离,将偏差与随机误差分量分离。
  • 推导出估计器 $\overline{Z}_n$ 的改进 $L^2$ 收敛速率,其阶为 $n^{-\alpha}$,其中 $\alpha < 1$,优于先前结果。
  • 建立希尔伯特空间中准鞅序列的新指数不等式,将 Pinelis 型界扩展至非线性递归算法。
  • 结合浓度不等式与矩界,构造形式为 $\|\overline{Z}_n - m\| \leq t_n$ 的非渐近置信球,其置信水平至少为 $1 - \delta$。
  • 采用柯西-施瓦茨不等式与求和技巧,控制递归更新中的偏差项与高阶误差分量。

实验结果

研究问题

  • RQ1平均随机梯度算法在希尔伯特空间中几何中位数估计的非渐近收敛速率是什么?
  • RQ2能否在无限维空间中非线性、递归随机算法的鞅项上建立指数尾部界?
  • RQ3在线几何中位数估计器相对于真实中位数的有限样本偏离行为如何?
  • RQ4如何为递归估计器构建具有显式、非渐近概率保证的置信球?
  • RQ5改进的 $L^2$ 速率与浓度不等式在多大程度上提升了高维或函数型数据中在线几何中位数估计的可靠性?

主要发现

  • 平均随机梯度估计器 $\overline{Z}_n$ 实现了 $L^2$ 收敛速率 $\mathbb{E}[\|\overline{Z}_n - m\|^2] \leq C' n^{-\alpha}$($\alpha < 1$),优于先前结果。
  • 为希尔伯特空间中准鞅序列建立的新指数不等式实现了高概率偏差控制,满足 $\mathbb{P}(\|\widehat{M}_{n+1}\|/n \geq t) \leq 2\exp[-t^2 / (2(\sigma_n'^2 + N_n't/6))]$。
  • 构造了半径为 $t_n = \mathcal{O}(\sqrt{\log(1/\delta)/n})$ 的非渐近置信球,使得 $\mathbb{P}(\|\overline{Z}_n - m\| \geq t_n) \leq \delta$。
  • 偏差界中的主导项为鞅浓度,而偏差与高阶项分别以 $\mathcal{O}(n^{-1 + \alpha/2})$、$\mathcal{O}(n^{-\alpha})$ 和 $\mathcal{O}(n^{-1})$ 的速率衰减。
  • 置信球半径的尺度为 $\mathcal{O}(\sqrt{\log(1/\delta)/n})$,表明递归估计器具有近参数浓度特性。
  • 结果验证了在线递归算法在具有有限样本保证的函数型或高维数据中进行鲁棒几何中位数估计的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。