Skip to main content
QUICK REVIEW

[论文解读] Approximate Hamming Distance in a Stream

Clifford, Raphaël, Starikovskaya, Tatiana|arXiv (Cornell University)|Sep 24, 2011
Algorithms and Data Compression参考文献 12被引用 3
一句话总结

本文提出了一种参数化模式匹配的流式算法,可在每个流符号上实现恒定时间处理,并以高概率实现次线性、近乎最优的空间使用。通过利用模式的p-周期性,并采用基于缓冲区的方法结合等差数列来表示匹配,该方法能够高效地实时追踪参数化匹配,标志着在流式模式匹配中超越以往次线性空间限制的重大进展。

ABSTRACT

We consider the problem of computing a (1+epsilon)-approximation of the Hamming distance between a pattern of length n and successive substrings of a stream. We first look at the one-way randomised communication complexity of this problem. We show the following: - If Alice and Bob both share the pattern and Alice has the first half of the stream and Bob the second half, then there is an O(epsilon^{-4}*log^2(n)) bit randomised one-way communication protocol. - If Alice has the pattern, Bob the first half of the stream and Charlie the second half, then there is an O(epsilon^{-2}*sqrt(n)*log(n)) bit randomised one-way communication protocol. We then go on to develop small space streaming algorithms for (1 + epsilon)-approximate Hamming distance which give worst case running time guarantees per arriving symbol. - For binary input alphabets there is an O(epsilon^{-3}*sqrt(n)*log^2(n)) space and O(epsilon^{-2}*log(n)) time streaming (1 + epsilon)-approximate Hamming distance algorithm. - For general input alphabets there is an O(epsilon^{-5}*sqrt(n)*log^4(n)) space and O(epsilon^{-4}*log^3(n)) time streaming (1 + epsilon)-approximate Hamming distance algorithm.

研究动机与目标

  • 在流式模型中以最小的空间和时间复杂度解决参数化模式匹配问题。
  • 克服长期存在的Ω(m)空间障碍,该障碍限制了大多数流式模式匹配问题。
  • 证明对于比精确匹配更复杂的问题,次线性、近乎最优的空间解法是可行的。
  • 为实时数据流中检测参数化匹配提供一种实用且高效的方法。

提出的方法

  • 利用模式的p-周期性识别结构重复,从而实现高效的匹配检测。
  • 使用大小为O(|ΣP| + ρ)的缓冲区存储候选匹配位置,其中ρ为p-周期,|ΣP|为模式中不同符号的数量。
  • 应用前驱串变换,将参数化匹配问题转化为精确串周期性问题。
  • 将匹配识别为孤立位置(存储在集合Y中)或等差数列的一部分(由集合A表示),周期为ρ。
  • 采用滚动指纹技术,随着新流符号的到达,增量式地维护和更新匹配信息。
  • 证明在某一范围之外的匹配会形成周期为ρ的等差数列,从而实现紧凑表示。

实验结果

研究问题

  • RQ1尽管许多相关问题已知存在Ω(m)的下界,是否可以在流式模型中以次线性空间解决参数化模式匹配?
  • RQ2是否可能在使用远少于Θ(m)空间的同时,实现每个流符号的恒定时间处理?
  • RQ3模式的哪些结构特性(例如p-周期性)可被利用以降低流式模式匹配中的空间和时间复杂度?
  • RQ4当匹配出现在周期性模式中时,如何实现紧凑表示,以实现高效存储和更新?

主要发现

  • 该算法在高概率下实现了每个到达的流符号恒定时间处理。
  • 空间使用为次线性且近乎最优,缓冲区空间受限于O(|ΣP| + ρ),在许多情况下远小于Θ(m)。
  • 在任意长度为3m/2的窗口中,匹配数量受限于O(|ΣP|),从而实现高效存储和表示。
  • 证明了在某一偏移量之后的匹配会形成周期为ρ的等差数列,从而实现紧凑表示。
  • 该方法首次为流式环境中的参数化匹配提供了次线性空间解法,打破了非平凡模式匹配问题的Ω(m)空间障碍。
  • 即使仅少数符号被重标记,该方法依然稳健,进一步降低了空间使用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。