Skip to main content
QUICK REVIEW

[论文解读] On Low-Risk Heavy Hitters and Sparse Recovery Schemes

Yi Li, Vasileios Nakos|arXiv (Cornell University)|Sep 9, 2017
Atomic and Subatomic Physics Research参考文献 31被引用 3
一句话总结

该论文通过纠正先前工作的错误,推进了低失败概率下重头元素(heavy hitters)与稀疏恢复的理论研究,提出了失败概率指数级小的亚线性时间算法,并在尖刺协方差模型中建立了 ℓ2/ℓ2 稀疏恢复问题的紧致界。证明了在极低失败概率下 COUNT-SKETCH 是最优的,并给出了测量复杂度的匹配上下界,从而解决了该模型下问题的复杂度。

ABSTRACT

We study the heavy hitters and related sparse recovery problems in the low failure probability regime. This regime is not well-understood, and the main previous work on this is by Gilbert et al. (ICALP'13). We recognize an error in their analysis, improve their results, and contribute new sparse recovery algorithms, as well as provide upper and lower bounds for the heavy hitters problem with low failure probability. Our results are summarized as follows: 1) (Heavy Hitters) We study three natural variants for finding heavy hitters in the strict turnstile model, where the variant depends on the quality of the desired output. For the weakest variant, we give a randomized algorithm improving the failure probability analysis of the ubiquitous Count-Min data structure. We also give a new lower bound for deterministic schemes, resolving a question about this variant posed in Question 4 in the IITK Workshop on Algorithms for Data Streams (2006). Under the strongest and well-studied l_{infty}/ l_2 variant, we show that the classical Count-Sketch data structure is optimal for very low failure probabilities, which was previously unknown. 2) (Sparse Recovery Algorithms) For non-adaptive sparse-recovery, we give sublinear-time algorithms with low-failure probability, which improve upon Gilbert et al. (ICALP'13). In the adaptive case, we improve the failure probability from a constant by Indyk et al. (FOCS '11) to e^{-k^{0.99}}, where k is the sparsity parameter. 3) (Optimal Average-Case Sparse Recovery Bounds) We give matching upper and lower bounds in all parameters, including the failure probability, for the measurement complexity of the l_2/l_2 sparse recovery problem in the spiked-covariance model, completely settling its complexity in this model.

研究动机与目标

  • 解决在低失败概率环境下对重头元素与稀疏恢复问题理解不足的问题。
  • 纠正 Gilbert 等人(ICALP’13)在失败概率分析中的错误,并改进其结果。
  • 开发新的非自适应亚线性时间稀疏恢复算法,失败概率为指数级小。
  • 在尖刺协方差模型中,为 ℓ2/ℓ2 稀疏恢复建立测量复杂度的紧致上下界。
  • 解决关于确定性方案以及 COUNT-SKETCH 在低失败概率下最优性的开放问题。

提出的方法

  • 使用哈希函数 h: [n] → [log^c₀ n] 将坐标划分为若干桶,确保每个重头元素以高概率落入唯一一个桶。
  • 在包含恰好一个重头元素的桶集合 F_good 中应用 1-稀疏恢复子程序。
  • 采用非自适应算法,通过估计坐标并应用阈值处理,使用 O((k/ε) log(εn/k) + (1/ε) log(1/δ)) 次测量。
  • 利用概率方法与总变差距离证明测量复杂度的下界。
  • 利用旋转不变性与高斯集中性,将问题简化为区分两个多元正态分布。
  • 应用引理 54 构造一个大小为 O(k) 的超集 S,以高概率包含所有重头元素。

实验结果

研究问题

  • RQ1COUNT-MIN sketch 的失败概率分析在低失败概率下是否最优,能否进一步改进?
  • RQ2当失败概率极低时,COUNT-SKETCH 在 ℓ∞/ℓ2 重头元素问题中是否最优?
  • RQ3非自适应稀疏恢复算法能否实现亚线性时间,且失败概率为 e^{-k^{0.99}}?
  • RQ4在尖刺协方差模型中,ℓ2/ℓ2 稀疏恢复的最优测量复杂度是多少,其对 δ 的依赖关系如何?
  • RQ5在低失败概率下,能否为尖刺协方差模型中的 ℓ2/ℓ2 恢复建立紧致下界?

主要发现

  • 在极低失败概率下,经典 COUNT-SKETCH 数据结构对 ℓ∞/ℓ2 重头元素问题是最优的,解决了长期存在的开放问题。
  • 提出一种新随机算法,改进了严格流转模型中 COUNT-MIN 的失败概率,纠正了 Gilbert 等人(ICALP’13)中的缺陷。
  • 对于非自适应稀疏恢复,本文给出了失败概率为 e^{-k^{0.99}} 的亚线性时间算法,优于 Gilbert 等人(ICALP’13)的结果。
  • 在尖刺协方差模型中,测量复杂度的上下界均为 Ω(ε^{-1} log(1/δ)),从而确定了该问题的复杂度。
  • 本文证明了在尖刺协方差模型中,任何 ℓ2/ℓ2 算法的下界均为 Ω(ε^{-1} log(1/δ)),对所有 k ≥ 1 及足够小的 δ 成立。
  • 该算法以至少 1−δ 的概率满足 ∥x − ˆx∥₂² ≤ (1 + O(ε))∥x−k∥₂²,使用 O((k/ε) log(εn/k) + (1/ε) log(1/δ)) 次测量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。