[论文解读] On the Complexity of Exact Pattern Matching in Graphs: Binary Strings and Bounded Degree
本文建立了标签图中精确模式匹配的条件下界,证明除非强指数时间假设(SETH)为假,否则任何算法都无法在亚二次时间(O(|E|^{1−ϵ}m) 或 O(|E|m^{1−ϵ}))内解决该问题,其中 ϵ > 0。该结果即使在最大度数为三的无向图以及总度数有界的有向无环图(DAG)中依然成立,表明在 SETH 下,图上的精确匹配与近似匹配同样困难,这与字符串中精确匹配为线性时间、近似匹配为二次时间的情况形成对比。
Exact pattern matching in labeled graphs is the problem of searching paths of a graph $G=(V,E)$ that spell the same string as the pattern $P[1..m]$. This basic problem can be found at the heart of more complex operations on variation graphs in computational biology, of query operations in graph databases, and of analysis operations in heterogeneous networks, where the nodes of some paths must match a sequence of labels or types. We describe a simple conditional lower bound that, for any constant $ε>0$, an $O(|E|^{1 - ε} \, m)$-time or an $O(|E| \, m^{1 - ε})$-time algorithm for exact pattern matching on graphs, with node labels and patterns drawn from a binary alphabet, cannot be achieved unless the Strong Exponential Time Hypothesis (SETH) is false. The result holds even if restricted to undirected graphs of maximum degree three or directed acyclic graphs of maximum sum of indegree and outdegree three. Although a conditional lower bound of this kind can be somehow derived from previous results (Backurs and Indyk, FOCS'16), we give a direct reduction from SETH for dissemination purposes, as the result might interest researchers from several areas, such as computational biology, graph database, and graph mining, as mentioned before. Indeed, as approximate pattern matching on graphs can be solved in $O(|E|\,m)$ time, exact and approximate matching are thus equally hard (quadratic time) on graphs under the SETH assumption. In comparison, the same problems restricted to strings have linear time vs quadratic time solutions, respectively, where the latter ones have a matching SETH lower bound on computing the edit distance of two strings (Backurs and Indyk, STOC'15).
研究动机与目标
- 在强指数时间假设(SETH)下,为标签图中的精确模式匹配建立一个条件性下界。
- 阐明图中精确匹配与近似匹配之间的复杂度差距,与字符串匹配中已知的线性与二次复杂度形成对比。
- 证明即使在结构约束下(如无向图的有界度数或 DAG 的有界入度+出度之和),该问题依然困难。
- 提供从 SETH 到图中精确模式匹配的直接、自包含的归约,使结果对计算生物学、图数据库和图挖掘领域的研究人员更易理解与应用。
提出的方法
- 从强指数时间假设(SETH)到标签图中精确模式匹配问题的直接归约。
- 设计一种用于图节点标签的二进制编码方案,通过二进制子串模拟模式出现。
- 构建一个通过桥接结构强制从 'e' 节点到 'b' 节点方向遍历的变换图,确保仅保留有效模式匹配。
- 使用修改后的模式 P',通过确保其二进制编码不包含 'be' 的编码,避免虚假匹配。
- 证明原始图中存在模式匹配当且仅当其二进制编码在变换图中匹配,从而保持正确性。
- 通过将路径中首个到最后一个桥接的边定向,将归约适配于有向无环图(DAG),确保无环性。
实验结果
研究问题
- RQ1在 SETH 假设下,标签图中的精确模式匹配能否在亚二次时间(即 o(|E|m) 时间)内解决?
- RQ2图中精确匹配与近似匹配之间是否存在根本性的复杂度差异,如同在字符串中精确匹配为线性、近似匹配为二次时间那样?
- RQ3在有界度数或有界入度+出度之和的结构约束下,精确模式匹配的复杂度是否依然很高?
- RQ4SETH 基于的下界能否扩展到确定性图中,即每个节点对每个标签最多只有一条出边?
- RQ5图中模式匹配的二次时间壁垒是否本质存在,还是在其他假设下可能存在更高效的算法?
主要发现
- 对于二元字母表的标签图,不存在 O(|E|^{1−ϵ}m) 或 O(|E|m^{1−ϵ}) 时间复杂度的精确模式匹配算法,除非强指数时间假设(SETH)为假。
- 该条件性下界即使在最大度数为三的无向图中依然成立,表明该问题在强结构约束下仍具难度。
- 相同的下界也适用于最大入度+出度之和为三的有向无环图(DAG),将结果扩展到知识图谱和变异图等重要图类。
- 本文表明,在 SETH 下,图上的精确匹配与近似匹配具有相同的复杂度,与字符串中精确匹配为线性、近似匹配为二次的情况形成鲜明对比。
- 该归约是自包含的,直接从 SETH 推导出下界,使其对计算生物学、图数据库和图挖掘领域的研究人员更具可访问性和适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。