Skip to main content
QUICK REVIEW

[论文解读] Robust empirical mean Estimators

Matthieu Lerasle, Roberto I. Oliveira|arXiv (Cornell University)|Dec 16, 2011
Advanced Statistical Methods and Models参考文献 32被引用 52
一句话总结

该论文提出了一种基于分块中位数-均值的鲁棒经验均值估计器,可在无需已知方差或峰度的情况下实现次高斯浓度。该方法实现了在重尾和无界数据下的鲁棒聚合与估计器选择,将最优风险界推广至非高斯、异方差及混合设定,且假设条件极少。

ABSTRACT

We study robust estimators of the mean of a probability measure $P$, called robust empirical mean estimators. This elementary construction is then used to revisit a problem of aggregation and a problem of estimator selection, extending these methods to not necessarily bounded collections of previous estimators. We consider then the problem of robust $M$-estimation. We propose a slightly more complicated construction to handle this problem and, as examples of applications, we apply our general approach to least-squares density estimation, to density estimation with Küllback loss and to a non-Gaussian, unbounded, random design and heteroscedastic regression problem. Finally, we show that our strategy can be used when the data are only assumed to be mixing.

研究动机与目标

  • 开发一种鲁棒经验均值估计器,可在无需事先知晓方差或峰度的情况下实现次高斯浓度界。
  • 将鲁棒聚合与估计器选择方法扩展至无界且重尾的估计器集合。
  • 将鲁棒M-估计推广至非高斯、无界及异方差的回归与密度估计问题。
  • 确保所提出的估计器在最小矩假设下,维持最优风险界(对数因子内)。
  • 通过利用基于分块的分解处理依赖性观测,将该框架适配于混合数据。

提出的方法

  • 将i.i.d.样本划分为V ≈ ln(δ⁻¹)个规则块,以计算各块的经验均值。
  • 通过取各块经验均值的中位数构造最终估计器,以实现对重尾的鲁棒性。
  • 利用集中不等式及块间的独立性,推导出具有通用常数C的高概率偏差界。
  • 通过将每个候选估计器视为块统计量,将中位数-均值构造应用于估计器选择与聚合。
  • 引入一种边际型假设以控制M-估计中的风险,使方法可应用于最小二乘与最大似然密度估计。
  • 借助经验过程理论与对估计器的统一上界,将结果扩展至非高斯设定之外。

实验结果

研究问题

  • RQ1能否在无需事先知晓方差或峰度的情况下构造出鲁棒经验均值估计器?
  • RQ2如何将鲁棒聚合与估计器选择方法扩展至重尾数据下的无界估计器集合?
  • RQ3在非高斯与异方差设定下,中位数-均值方法在M-估计中实现最优风险界的条件是什么?
  • RQ4基于分块的中位数-均值框架能否适配于依赖的、混合的数据流?
  • RQ5在高维或复杂模型中,该鲁棒经验均值估计器在效率方面与非鲁棒方法相比能保持多大程度的可比性?

主要发现

  • 所提出的鲁棒经验均值估计器满足 |P{m̂(δ) - m > Cσ√(ln(δ⁻¹)/n)} ≤ δ,其中C为通用常数,实现了无需事先知晓σ或峰度的次高斯浓度。
  • 基于分块的中位数-均值构造确保了鲁棒性,并在底层分布具有重尾时仍能达到最优偏差界。
  • 该方法在最小二乘密度估计中实现了可计算且鲁棒的估计器选择,将先前工作推广至无界词典。
  • 在M-估计中,该方法在边际型假设下可达到最优风险界(对数因子内),适用于异方差误差下的回归与密度估计。
  • 通过将样本划分为独立块,该框架可应用于混合数据,使模型选择方法可推广至依赖设定。
  • 该鲁棒估计器的效率与非鲁棒方法相当,而不同于牺牲计算可及性的非凸方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。