Skip to main content
QUICK REVIEW

[論文レビュー] On the Complexity of Exact Pattern Matching in Graphs: Binary Strings and Bounded Degree

Massimo Equi, Roberto Grossi|arXiv (Cornell University)|Jan 1, 2019
Algorithms and Data Compression参考文献 23被引用数 4
ひとこと要約

本稿は、ラベル付きグラフにおける正確なパターンマッチングの条件付き下界を確立し、任意の ϵ > 0 に対して、強指数時間仮説(SETH)が誤りでない限り、O(|E|^{1−ϵ}m) または O(|E|m^{1−ϵ}) 時間でこの問題を解くアルゴリズムは存在しないことを証明している。この結果は、最大次数が3の無向グラフや、総次数が有界な有向無環グラフに対しても成り立つ。これは、SETHのもとでは、グラフにおける正確なマッチングと近似マッチングが同程度に難しいことを示しており、文字列とは異なり、正確なマッチングが線形で近似マッチングが二次的であるという事実とは対照的である。

ABSTRACT

Exact pattern matching in labeled graphs is the problem of searching paths of a graph $G=(V,E)$ that spell the same string as the pattern $P[1..m]$. This basic problem can be found at the heart of more complex operations on variation graphs in computational biology, of query operations in graph databases, and of analysis operations in heterogeneous networks, where the nodes of some paths must match a sequence of labels or types. We describe a simple conditional lower bound that, for any constant $ε>0$, an $O(|E|^{1 - ε} \, m)$-time or an $O(|E| \, m^{1 - ε})$-time algorithm for exact pattern matching on graphs, with node labels and patterns drawn from a binary alphabet, cannot be achieved unless the Strong Exponential Time Hypothesis (SETH) is false. The result holds even if restricted to undirected graphs of maximum degree three or directed acyclic graphs of maximum sum of indegree and outdegree three. Although a conditional lower bound of this kind can be somehow derived from previous results (Backurs and Indyk, FOCS'16), we give a direct reduction from SETH for dissemination purposes, as the result might interest researchers from several areas, such as computational biology, graph database, and graph mining, as mentioned before. Indeed, as approximate pattern matching on graphs can be solved in $O(|E|\,m)$ time, exact and approximate matching are thus equally hard (quadratic time) on graphs under the SETH assumption. In comparison, the same problems restricted to strings have linear time vs quadratic time solutions, respectively, where the latter ones have a matching SETH lower bound on computing the edit distance of two strings (Backurs and Indyk, STOC'15).

研究の動機と目的

  • 強指数時間仮説(SETH)のもとで、ラベル付きグラフにおける正確なパターンマッチングの条件付き下界を確立すること。
  • 文字列マッチングにおける既知の線形対二次の複雑さのギャップとは対照的に、グラフにおける正確なマッチングと近似マッチングの複雑さのギャップを明確にすること。
  • 有界次数の無向グラフや、有向無環グラフ(DAG)におけるインデグリュス+アウトディグリュスの合計が有界であるといった構造的制約のもとでも、この問題が依然として難しいことを示すこと。
  • SETHから直接的かつ自己完結的な還元を提供し、計算生物学、グラフデータベース、グラフマイニング分野の研究者にもアクセス可能になるようにすること。

提案手法

  • 強指数時間仮説(SETH)から、ラベル付きグラフにおける正確なパターンマッチング問題への直接的還元。
  • パターン出現をバイナリ部分文字列によってシミュレートするための、グラフノードラベルのバイナリ符号化方式の設計。
  • 「e」ノードから「b」ノードへの方向付き走査を強制するブリッジを備えた変換グラフの構築により、有効なパターンマッチのみが保持されることを保証。
  • そのバイナリ符号化が「be」の符号化を含まないよう、スプライアスマッチを回避するための改訂版パターン P' の使用。
  • 元のグラフにおけるパターンマッチが、変換されたグラフにおけるそのバイナリ符号化が一致する場合にかつその場合に限り成立することの証明により、正しさが保持されること。
  • パス内の最初のブリッジから最後のブリッジへと辺を方向付けることで、有向無環グラフ(DAG)に対しても還元を適応すること。

実験結果

リサーチクエスチョン

  • RQ1SETHのもとで、ラベル付きグラフにおける正確なパターンマッチングが、すなわち o(|E|m) 時間で解ける可能性はあるか?
  • RQ2文字列とは異なり、グラフにおける正確なマッチングと近似マッチングの間に根本的な複雑さの差があるのか?
  • RQ3有界次数や有界インデグリュス+アウトディグリュスといった構造的制約のもとでも、正確なマッチングの複雑さは依然として高いままであるか?
  • RQ4SETHに基づく下界を、各ラベルごとに最大1本の出次数を持つ決定的グラフに拡張できるか?
  • RQ5グラフにおけるパターンマッチングの二次時間の壁は本質的なのか、それとも他の仮定のもとではより効率的なアルゴリズムが存在する可能性があるのか?

主な発見

  • 二進アルファベットを用いたラベル付きグラフにおける正確なパターンマッチングに対して、O(|E|^{1−ϵ}m) 時間または O(|E|m^{1−ϵ}) 時間のアルゴリズムは、強指数時間仮説(SETH)が誤りでない限り存在しない。
  • この条件付き下界は、最大次数が3の無向グラフに対しても成り立ち、強い構造的制約のもとでも問題の難易度が保たれることを示している。
  • 最大インデグリュス+アウトディグリュスの合計が3である有向無環グラフ(DAG)に対しても、同じ下界が適用可能であり、知識グラフやバリエーショングラフにおいて重要なグラフクラスにまで結果が拡張されている。
  • 本稿は、SETHのもとでは、グラフにおける正確なマッチングと近似マッチングの複雑さが同じであることを示しており、文字列とは対照的である(正確なマッチングは線形、近似マッチングは二次的)。
  • 還元は自己完結的であり、SETHから直接的に下界を導出しているため、計算生物学、グラフデータベース、グラフマイニング分野の研究者にとっても容易にアクセス可能で応用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。