Skip to main content
QUICK REVIEW

[论文解读] Sample-Optimal Density Estimation in Nearly-Linear Time

Clément L. Canonne, Ilias Diakonikolas|arXiv (Cornell University)|Jun 1, 2015
Complexity and Algorithms in Graphs参考文献 3被引用 26
一句话总结

本文提出了一种针对可由分段多项式良好逼近的一元分布的鲁棒密度估计新算法。该算法在样本复杂度最优的前提下,仅需 O(t(d+1)/ϵ²) 个样本,运行时间接近线性,为 eO(n·poly(d)),并以高概率输出一个与真实密度相差不超过 4·OPT + ϵ 的假设。该方法结合了迭代划分、通过分离 oracle 实现的高效多项式拟合,以及用于超平面分离的组合算法,首次实现了对包括高斯混合、对数凹、离散分布等广泛结构化分布类的近乎样本最优且近乎线性时间的估计器。

ABSTRACT

We design a new, fast algorithm for agnostically learning univariate probability distributions whose densities are well approximated by piecewise polynomial functions. Let $f$ be the density function of an arbitrary univariate distribution, and suppose that $f$ is $\mathrm{OPT}$-close in $L_1$-distance to an unknown piecewise polynomial function with $t$ interval pieces and degree $d$. Our algorithm draws $n = O(t(d+1)/\epsilon^2)$ samples from $f$, runs in time $ ilde{O}(n \cdot \mathrm{poly}(d))$, and with probability at least $9/10$ outputs an $O(t)$-piecewise degree-$d$ hypothesis $h$ that is $4 \cdot \mathrm{OPT} +\epsilon$ close to $f$. Our general algorithm yields (nearly) sample-optimal and nearly-linear time estimators for a wide range of structured distribution families over both continuous and discrete domains in a unified way. For most of our applications, these are the first sample-optimal and nearly-linear time estimators in the literature. As a consequence, our work resolves the sample and computational complexities of a broad class of inference tasks via a single "meta-algorithm". Moreover, we experimentally demonstrate that our algorithm performs very well in practice. Our algorithm consists of three "levels": (i) At the top level, we employ an iterative greedy algorithm for finding a good partition of the real line into the pieces of a piecewise polynomial. (ii) For each piece, we show that the sub-problem of finding a good polynomial fit on the current interval can be solved efficiently with a separation oracle method. (iii) We reduce the task of finding a separating hyperplane to a combinatorial problem and give an efficient algorithm for this problem. Combining these three procedures gives a density estimation algorithm with the claimed guarantees.

研究动机与目标

  • 设计一种快速、鲁棒的密度估计算法,使其在一元分布上兼具统计效率与计算效率。
  • 为高斯混合、对数凹、离散等结构化分布族实现样本最优性能。
  • 解决长期存在的开放问题:在鲁棒设置下,同时最小化样本复杂度与运行时间。
  • 通过单一元算法统一连续与离散域上估计器的设计。

提出的方法

  • 该算法使用一种迭代贪心合并过程,将实直线划分为适合分段多项式拟合的区间。
  • 对每个区间,采用分离 oracle 方法,高效计算在 L1 约束下的最佳拟合多项式。
  • 将寻找分离超平面的问题转化为组合优化问题,并通过自定义算法求解。
  • 利用 Ak-投影 oracle 高效计算多项式投影,从而实现快速收敛。
  • 整体框架具有模块化特性,可统一适用于连续与离散域。
  • 提出一种新颖的从多项式拟合到半定规划可行性问题的约化方法,可通过凸优化求解。

实验结果

研究问题

  • RQ1我们能否设计一种在一元分布上既样本最优又运行时间接近线性的密度估计算法?
  • RQ2是否可能使用统一的元算法,实现对高斯混合与对数凹分布等结构化族的鲁棒学习保证?
  • RQ3学习分段多项式逼近的计算成本是多少?能否将其降低至近乎线性时间?
  • RQ4该算法的性能如何随样本量与目标分布复杂度变化?
  • RQ5分离 oracle 方法能否被有效适配以处理多项式拟合中的非负性与有界性约束?

主要发现

  • 该算法实现了 O(t(d+1)/ϵ²) 的样本复杂度,对于可由 t 段次数为 d 的多项式良好逼近的分布而言,该复杂度在信息论上是最优的。
  • 运行时间为 eO(n·poly(d)),其中 n 为样本数量,因此在样本规模上接近线性。
  • 对于 10⁶ 个样本,该算法在直方图假设下运行时间低于 35 毫秒,在分段线性假设下低于 0.3 秒,优于基于排序的方法。
  • 学习误差以 O(t(d+1)/ϵ²) 的速率衰减,且误差界中的常数因子接近 1,表明其近乎最优。
  • 运行时间对底层分布具有强鲁棒性,几乎不依赖于分布本身,展现出优异的实际性能。
  • 该方法首次为高斯混合、对数凹、t-单调及 Besov 空间密度等分布类提供了样本最优且近乎线性时间的估计器。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。