[论文解读] Streaming $k$-edit approximate pattern matching via string decomposition
本文提出了一种用于 k-edit 近似模式匹配的随机流算法,使用 Õ(k²) 空间和每个符号 Õ(k²) 时间,显著优于先前的 Õ(k⁵) 空间和 Õ(k⁸) 时间复杂度。该方法利用局部一致的字符串分解,将编辑距离转换为汉明距离,然后将 CKP k-不匹配算法作为黑箱应用于分解后的语法结构。
In this paper we give an algorithm for streaming $k$-edit approximate pattern matching which uses space $\widetilde{O}(k^2)$ and time $\widetilde{O}(k^2)$ per arriving symbol. This improves substantially on the recent algorithm of Kociumaka, Porat and Starikovskaya (2022) which uses space $\widetilde{O}(k^5)$ and time $\widetilde{O}(k^8)$ per arriving symbol. In the $k$-edit approximate pattern matching problem we get a pattern $P$ and text $T$ and we want to identify all substrings of the text $T$ that are at edit distance at most $k$ from $P$. In the streaming version of this problem both the pattern and the text arrive in a streaming fashion symbol by symbol and after each symbol of the text we need to report whether there is a current suffix of the text with edit distance at most $k$ from $P$. We measure the total space needed by the algorithm and time needed per arriving symbol.
研究动机与目标
- 设计一种空间和时间效率高的流式 k-edit 近似模式匹配算法。
- 克服先前流式方法的高空间和时间复杂度,尤其是 Kociumaka 等人(2022)提出的 Õ(k⁵) 空间和 Õ(k⁸) 时间。
- 通过字符串分解将编辑距离计算减少为汉明距离,实现接近最优的性能。
- 在流式环境中实现高效、实时的模式匹配,其中模式和文本逐符号到达。
提出的方法
- 使用 Bhattacharya 和 Koucký(2023)提出的局部一致字符串分解,将字符串表示为保持编辑距离的语法结构。
- 将 CKP k-不匹配模式匹配算法作为黑箱应用于分解后的语法结构,以检测近似匹配。
- 维护活跃的、已提交的以及与模式相关的语法结构,以追踪当前文本后缀及其与模式的对齐情况。
- 使用滚动语法更新机制,以 Õ(k) 时间每更新增量处理每个到达的文本符号。
- 通过求和对齐语法对之间的编辑距离,计算文本后缀与模式之间的编辑距离。
- 采用随机对齐采样,以确保在有界误差下具有高概率正确性。
实验结果
研究问题
- RQ1是否可以在流模型中以 Õ(k²) 空间和每符号 Õ(k²) 时间解决 k-edit 近似模式匹配?
- RQ2是否可以使用字符串分解技术在流式环境中将编辑距离问题转化为汉明距离问题?
- RQ3是否可能在保持低空间复杂度的同时实现每符号亚二次时间复杂度?
- RQ4是否可以通过对齐的随机采样将算法的错误概率控制在小多项式范围内?
主要发现
- 该算法实现了 Õ(k²) 空间和每到达符号 Õ(k²) 时间,相较于先前的 Õ(k⁵) 空间和 Õ(k⁸) 时间复杂度有显著提升。
- 使用字符串分解将编辑距离计算转化为语法上的汉明距离问题,从而能够重用高效的 k-不匹配算法。
- 该算法以高概率保持正确性,失败概率最多为 O(log N / N),可被控制为任意小的多项式。
- 由于高效的语法管理以及最多 k 个不匹配语法对上的编辑距离计算,时间复杂度被限制在每符号 Õ(k²)。
- 空间复杂度由 CKP k-不匹配算法和语法存储共同主导,两者在任意时刻均为 Õ(k²)。
- 该方法对流式约束具有鲁棒性,因其逐符号增量处理,并支持对当前文本后缀的编辑距离进行实时报告。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。