Skip to main content
QUICK REVIEW

[论文解读] Lower Bounds for Pseudo-Deterministic Counting in a Stream

Vladimir Braverman, Robert Krauthgamer|arXiv (Cornell University)|Jan 1, 2023
Complexity and Algorithms in Graphs被引用 2
一句话总结

本文建立了伪确定性流算法在数据流中解决近似计数问题的几乎紧致的下界 Ω(√(log n / log log n)) 位。作者引入了 Shift Finding 问题作为关键技术工具,提出了一个确定性 O(√(cn))-查询算法来解决该问题,并通过从该问题的归约证明了没有伪确定性算法能够达到 Morris 经典随机计数器的空间效率,后者仅使用 O(log log n) 位。

ABSTRACT

Many streaming algorithms provide only a high-probability relative approximation. These two relaxations, of allowing approximation and randomization, seem necessary -- for many streaming problems, both relaxations must be employed simultaneously, to avoid an exponentially larger (and often trivial) space complexity. A common drawback of these randomized approximate algorithms is that independent executions on the same input have different outputs, that depend on their random coins. Pseudo-deterministic algorithms combat this issue, and for every input, they output with high probability the same ``canonical'' solution. We consider perhaps the most basic problem in data streams, of counting the number of items in a stream of length at most $n$. Morris's counter [CACM, 1978] is a randomized approximation algorithm for this problem that uses $O(\log\log n)$ bits of space, for every fixed approximation factor (greater than $1$). Goldwasser, Grossman, Mohanty and Woodruff [ITCS 2020] asked whether pseudo-deterministic approximation algorithms can match this space complexity. Our main result answers their question negatively, and shows that such algorithms must use $Ω(\sqrt{\log n / \log\log n})$ bits of space. Our approach is based on a problem that we call Shift Finding, and may be of independent interest. In this problem, one has query access to a shifted version of a known string $F\in\{0,1\}^{3n}$, which is guaranteed to start with $n$ zeros and end with $n$ ones, and the goal is to find the unknown shift using a small number of queries. We provide for this problem an algorithm that uses $O(\sqrt{n})$ queries. It remains open whether $poly(\log n)$ queries suffice; if true, then our techniques immediately imply a nearly-tight $Ω(\log n/\log\log n)$ space bound for pseudo-deterministic approximate counting.

研究动机与目标

  • 解决伪确定性流算法是否能够匹配像 Morris 计数器这样的随机近似算法的空间效率问题。
  • 为数据流中伪确定性近似计数的空间复杂度建立非平凡的下界。
  • 引入并分析 Shift Finding 问题,作为证明流算法下界的新原 primitive。
  • 表明现有确定性或随机算法的技术无法直接扩展到伪确定性设置,原因在于规范输出约束。

提出的方法

  • 引入 Shift Finding 问题:给定一个已知字符串 F = 0^n P 1^n 的未知偏移版本,使用少量查询找出未知偏移 s*。
  • 基于周期性检测和见证验证,提出一种使用 O(√(cn)) 查询的确定性算法来解决 Shift Finding 问题。
  • 设计一个验证子程序,仅用两个查询即可检查候选偏移 s 是否正确。
  • 将近似计数问题归约为 Shift Finding 问题,表明解决其中一个可推导出对另一个的界限。
  • 通过重复采样和并集界的方法使用概率论证,在 Shift Finding 设置中消除错误候选。
  • 采用跨两种情形的混合分析方法推导出最终下界,同时利用了见证查询和概率消除。

实验结果

研究问题

  • RQ1伪确定性流算法在近似计数问题上能否实现与 Morris 计数器等随机近似算法相同的 O(log log n) 空间复杂度?
  • RQ2伪确定性算法在流中解决近似计数问题的最优空间复杂度是多少?
  • RQ3Shift Finding 问题是否可用多项式对数查询求解,且此类解法能否为伪确定性计数提供更紧致的下界?
  • RQ4针对确定性或随机算法已知的下界是否可推广到伪确定性设置,抑或需要新方法?

主要发现

  • 本文证明了任何解决 2-近似计数问题的伪确定性流算法,其空间复杂度下界为 Ω(√(log n / log log n)) 位。
  • 该下界被证明几乎是紧致的,因为此类算法的上界为 O(log n),而新下界与目前已知的随机算法的最优复杂度仅相差对数因子。
  • 引入了一个新问题 Shift Finding,并以 O(√(cn)) 次查询求解,该问题在下界证明中起到了关键技术作用。
  • 作者表明,若 Shift Finding 可以用 poly(log n) 次查询求解,则可推出伪确定性计数的几乎紧致下界 Ω(log n / log log n)。
  • 该证明依赖于一种新颖的从近似计数到 Shift Finding 的归约,结合了概率消除与见证验证。
  • 该结果否定了 Goldwasser 等人(ITCS 2020)提出的开放问题,即伪确定性算法是否能与 Morris 计数器在空间效率上保持一致。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。