QUICK REVIEW

[论文解读] Finding Maximal Exact Matches in Graphs

Manuel Cáceres|arXiv (Cornell University)|Dec 15, 2022

Algorithms and Data Compression被引用 3

一句话总结

该论文首次提出了针对带标签有向无环图（DAGs）的精确字符串匹配的参数化算法，通过新颖的图类（如k-漏斗和STk）利用拓扑结构。通过仅追踪前缀不可比匹配来推广Knuth-Morris-Pratt算法，该方法在周期性字符串上实现了次二次时间复杂度，时间复杂度为O((|V| + |E|)k² + m²)，其中k衡量了DAG的结构复杂度。

ABSTRACT

The problem of String Matching to Labeled Graphs (SMLG) asks to find all the paths in a labeled graph $G = (V, E)$ whose spellings match that of an input string $S \in Σ^m$. SMLG can be solved in quadratic $O(m|E|)$ time [Amir et al., JALG], which was proven to be optimal by a recent lower bound conditioned on SETH [Equi et al., ICALP 2019]. The lower bound states that no strongly subquadratic time algorithm exists, even if restricted to directed acyclic graphs (DAGs). In this work we present the first parameterized algorithms for SMLG in DAGs. Our parameters capture the topological structure of $G$. All our results are derived from a generalization of the Knuth-Morris-Pratt algorithm [Park and Kim, CPM 1995] optimized to work in time proportional to the number of prefix-incomparable matches. To obtain the parameterization in the topological structure of $G$, we first study a special class of DAGs called funnels [Millani et al., JCO] and generalize them to $k$-funnels and the class $ST_k$. We present several novel characterizations and algorithmic contributions on both funnels and their generalizations.

研究动机与目标

为解决在SETH假设下带标签DAG字符串匹配的二次时间下界，提出基于拓扑结构的参数化算法。
通过仅关注前缀不可比匹配，将Knuth-Morris-Pratt算法推广至DAG，以减少计算量。
定义并表征新型图类——k-漏斗和STk，以捕捉能实现更快字符串匹配的结构参数。
提供这些图类的高效识别与划分算法，以支持参数化解决方案的实现。
探索将该方法扩展至计数/报告功能，并在实际中实现无参数化的线性时间解法的可行性。

提出的方法

通过仅维护前缀不可比匹配，将Knuth-Morris-Pratt（KMP）算法推广至DAG，从而减少活跃状态数量。
为每个顶点v引入前缀不可比集合（PIv），以捕获所有在v处结束的有效前缀匹配。
将k-漏斗和STk类定义为漏斗的推广，其中k表示共享共同前缀或后缀的路径的最大数量。
基于k-漏斗结构设计划分策略，将DAG划分为子图G[V1] ∈ Sk和G[V2] ∈ Tk，且V2中无边指向V1。
使用动态规划预计算布尔表PS[i,j]，耗时O(m²)，以在O(|PIu|·|SIv|)时间内测试V1到V2间边的匹配存在性。
采用指数查找法在O((|V| + |E|) log k)时间内计算使DAG属于STk的最小k值。

实验结果

研究问题

RQ1尽管存在基于SETH的二次时间下界，当以拓扑结构为参数时，是否能实现带标签DAG字符串匹配的次二次时间算法？
RQ2如何将KMP算法适配至DAG，以避免处理冗余的前缀匹配，从而实现参数化线性时间？
RQ3k-漏斗和STk类的结构特性是什么，使其能够实现高效的字符串匹配与识别？
RQ4能否高效计算使DAG属于STk的最小k值？该计算对整体算法复杂度有何影响？
RQ5是否可能将该参数化方法扩展至支持线性时间内的计数或所有匹配的报告（相对于匹配出现次数）？

主要发现

论文提出的时间复杂度为O((|V| + |E|)k² + m²)的参数化算法，其中k = maxv∈V(min(μs(v), μt(v)))，在某些DAG结构上优于经典O(m|E|)的复杂度。
通过利用前缀不可比集合的有界大小（其上界由模式串S的结构决定），该算法在周期性字符串上实现了次二次性能。
为k-漏斗和STk类提供了线性时间识别算法，支持参数化解决方案的高效预处理。
通过指数查找法，可在O((|V| + |E|) log k)时间内计算使DAG属于STk的最小k值。
通过O(m²)时间预计算动态规划表PS[i,j]，可在O(|PIu|·|SIv|)时间内测试跨分区边的匹配存在性，且|PIu|·|SIv| = O(k²)。
通过仅关注前缀不可比匹配，该方法将KMP算法推广至DAG，而这些匹配已足够表示每个顶点处所有有效的前缀匹配。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。