Skip to main content
QUICK REVIEW

[논문 리뷰] Parameterized DAWGs: efficient constructions and bidirectional pattern searches

Katsuhito Nakashima, Noriki Fujisato|arXiv (Cornell University)|2020. 02. 17.
Network Packet Processing and Optimization인용 수 2
한 줄 요약

이 논문은 선형 공간 인덱싱 구조인 매개변수화된 방향성 비순환 단어 그래프(PDAWGs)를 소개한다. 왼쪽에서 오른쪽으로의 O(n|Π| log(|Π| + |Σ|))-시간, O(n)-공간 온라인 알고리즘을 제안하며, PDAWGs를 이용해 O(m log(|Π| + |Σ|) + occ) 시간에 선형 공간만을 사용하여 이중 방향 매개변수화된 패턴 매칭을 수행할 수 있음을 보여주며, 이는 이중 방향 p-매칭을 위한 첫 번째 선형 공간 인덱스이다.

ABSTRACT

Two strings $x$ and $y$ over $\Sigma \cup \Pi$ of equal length are said to \emph{parameterized match} (\emph{p-match}) if there is a renaming bijection $f:\Sigma \cup \Pi ightarrow \Sigma \cup \Pi$ that is identity on $\Sigma$ and transforms $x$ to $y$ (or vice versa). The \emph{p-matching} problem is to look for substrings in a text that p-match a given pattern. In this paper, we propose \emph{parameterized suffix automata} (\emph{p-suffix automata}) and \emph{parameterized directed acyclic word graphs} (\emph{PDAWGs}) which are the p-matching versions of suffix automata and DAWGs. While suffix automata and DAWGs are equivalent for standard strings, we show that p-suffix automata can have $\Theta(n^2)$ nodes and edges but PDAWGs have only $O(n)$ nodes and edges, where $n$ is the length of an input string. We also give an $O(n |\Pi| \log (|\Pi| + |\Sigma|))$-time $O(n)$-space algorithm that builds the PDAWG in a left-to-right online manner. As a byproduct, it is shown that the \emph{parameterized suffix tree} for the reversed string can also be built in the same time and space, in a right-to-left online manner. This duality also leads us to two further efficient algorithms for p-matching: Given the parameterized suffix tree for the reversal of the input string $T$, one can build the PDAWG of $T$ in $O(n)$ time in an offline manner; One can perform \emph{bidirectional} p-matching in $O(m \log (|\Pi|+|\Sigma|) + \mathit{occ})$ time using $O(n)$ space, where $m$ denotes the pattern length and $\mathit{occ}$ is the number of pattern occurrences in the text $T$.

연구 동기 및 목표

  • 매개변수화된 패턴 매칭을 위한 효율적이고 선형 공간을 사용하는 인덱싱 구조의 부족을 해결하기 위해.
  • 선형 공간을 유지하면서 효율적인 패턴 매칭을 지원하는 표준 DAWGs의 매개변수화된 버전인 PDAWGs를 설계하기 위해.
  • PDAWGs와 매개변수화된 접미사 트리 간의 이중성(duality)을 확립하여 온라인 및 오프라인 구축 알고리즘을 가능하게 하기 위해.
  • 선형 공간과 거의 최적의 시간 복잡도를 갖는 이중 방향 패턴 매칭을 지원하기 위해.

제안 방법

  • 표준 DAWGs의 매개변수화된 변형으로서 PDAWGs를 제안하며, 등가 클래스는 매개변수화된 접미사 등가성에 의해 정의된다.
  • PDAWGs와의 이중성을 확립하기 위해 매개변수화된 접미사 트리에 매개변수화된 Weiner 링크를 도입한다.
  • 접미사 링크와 간선 갱신을 사용하여 왼쪽에서 오른쪽으로의 온라인 알고리즘을 설계하며, 시간 복잡도는 O(n|Π| log(|Π| + |Σ|))이고 공간 복잡도는 O(n)이다.
  • PDAWGs와 매개변수화된 접미사 트리 간의 이중성을 활용하여 매개변수화된 접미사 트리의 오른쪽에서 왼쪽으로의 온라인 구축을 유도한다.
  • 역순 문자열의 PDAWGs와 매개변수화된 접미사 트리를 사용하여 이중 방향 패턴 매칭을 지원한다.
  • 포인터 기반 머신 모델에서 효율성을 유지하기 위해 간선 및 접미사 링크 조회를 위한 로그 시간 데이터 구조를 적용한다.

실험 결과

연구 질문

  • RQ1매개변수화된 DAWGs의 변형이 효율적인 패턴 매칭을 지원하면서도 선형 공간에서 구축될 수 있는가?
  • RQ2표준 DAWGs와 접미사 트리 간의 관계와 유사하게, PDAWGs와 매개변수화된 접미사 트리 간에 이중성이 존재하는가?
  • RQ3선형 공간과 거의 최적의 시간 복잡도 내에서 이중 방향 매개변수화된 패턴 매칭을 지원할 수 있는가?
  • RQ4온라인 PDAWG 구축의 시간 복잡도 O(n|Π| log(|Π| + |Σ|))는 날카롭게 조밀한가, 아니면 향상될 수 있는가?
  • RQ5역순 문자열의 사전 계산된 매개변수화된 접미사 트리를 사용하여 오프라인 PDAWG 구축을 가속화할 수 있는가?

주요 결과

  • 매개변수화된 문자열의 길이가 n인 PDAWGs는 매개변수화된 접미사 오토마타와 달리 최악의 경우 Θ(n²) 크기일 수 있지만, O(n)개의 정점과 간선을 가진다.
  • 문자열을 왼쪽에서 오른쪽으로 처리함으로써, 온라인 알고리즘이 O(n|Π| log(|Π| + |Σ|)) 시간과 O(n) 공간에서 PDAWGs를 구축한다.
  • PDAWGs와 매개변수화된 접미사 트리 간의 이중성 덕분에 매개변수화된 접미사 트리의 오른쪽에서 왼쪽으로의 온라인 구축이 O(n|Π| log(|Π| + |Σ|)) 시간과 O(n) 공간에서 가능해진다.
  • 역순 문자열의 매개변수화된 접미사 트리가 사전에 제공된다면, PDAWGs는 O(n) 시간과 O(n) 공간에서 오프라인으로 구축될 수 있다.
  • 이중 방향 매개변수화된 패턴 매칭은 O(m log(|Π| + |Σ|) + occ) 시간에 선형 공간만을 사용하여 지원되며, 여기서 m은 패턴 길이이고 occ는 발생 수이다.
  • 제안된 PDAWGs는 이중 방향 매개변수화된 패턴 매칭을 효율적으로 지원하는 첫 번째 선형 공간 인덱스이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.