QUICK REVIEW

[논문 리뷰] Sorting Finite Automata via Partition Refinement

Ruben Becker, Manuel Cáceres|arXiv (Cornell University)|2023. 01. 01.

semigroups and automata theory인용 수 1

한 줄 요약

이 논문은 확장된 분할 정렬 기법을 사용하여 웨일러 NFA에서 공-레크스 총전순서와 DFA에서 최소 폭의 공-레크스 부분순서를 계산하는 O(|δ| log |Q|) 시간 알고리즘을 제안한다. Paige-Tarjan 알고리즘을 순서가 부여된 분할에 적응시키고 가지치기 히우리스틱을 통합함으로써, 이 방법은 최적의 시간 복잡도를 달성하고 실질적으로 이전 방법들을 능가하며, 구현 결과 대규모 유한 오토마타에서 최대 10,000배 빠른 성능을 보였다.

ABSTRACT

Wheeler nondeterministic finite automata (WNFAs) were introduced as a generalization of prefix sorting from strings to labeled graphs. WNFAs admit optimal solutions to classic hard problems on labeled graphs and languages. The problem of deciding whether a given NFA is Wheeler is known to be NP-complete. Recently, however, Alanko et al. showed how to side-step this complexity by switching to preorders: letting $Q$ be the set of states, $E$ the set of transitions, $|Q|=n$, and $|E|=m$, they provided a $O(mn^2)$-time algorithm computing a totally-ordered partition of the WNFA's states such that (1) equivalent states recognize the same regular language, and (2) the order of non-equivalent states is consistent with any Wheeler order, when one exists. Then, the output is a preorder of the states as useful for pattern matching as standard Wheeler orders. Further research generalized these concepts to arbitrary NFAs by introducing co-lex partial preorders: any NFA admits a partial preorder of its states reflecting the co-lex order of their accepted strings; the smaller the width of such preorder is, the faster regular expression matching queries can be performed. To date, the fastest algorithm for computing the smallest-width partial preorder on NFAs runs in $O(m^2+n^{5/2})$ time, while on DFAs the same can be done in $O(\min(n^2\log n,mn))$ time. In this paper, we provide much more efficient solutions to the problem above. Our results are achieved by extending a classic algorithm for the relational coarsest partition refinement problem to work with ordered partitions. Specifically, we provide a $O(m\log n)$-time algorithm computing a co-lex total preorder when the input is a WNFA, and an algorithm with the same time complexity computing the smallest-width co-lex partial order of any DFA. Also, we present implementations of our algorithms and show that they are very efficient in practice.

연구 동기 및 목표

패턴 매칭을 위한 유한 오토마타에서 공-레크스 전순서 계산의 계산 병목 현상을 해결하고, 특히 펜제놈 그래프와 같은 대규모 응용 분야에서 효율성을 확보한다.
웨일러 오토마타를 결정하는 데 NP-완전임을 고려하여, 웨일러 순서의 유용성을 유지하는 전순서 계산에 초점을 맞춘다.
DFAs에 대한 최소 폭의 공-레크스 부분순서와 WNFAs에 대한 총전순서를 시간 및 공간 효율적으로 계산하는 알고리즘을 개발한다.
5000만 개 이상의 상태와 간선을 가진 오토마타에 대해 스케일링 가능한 실용적 구현을 제공하여 실제 응용에서의 효율성을 입증한다.

제안 방법

기본 Paige-Tarjan 알고리즘을 더 끊어진 분할 정렬에 확장하여 순서가 부여된 분할을 다룰 수 있도록 하고, 이를 통해 상태의 공-레크스 순서를 가능하게 한다.
분할 정렬 이후에 불필요한 전이를 제거하는 가지치기 메커니즘을 도입하여, 각 비원천 상태가 최소한 하나의 들어오는 전이만 갖도록 보장한다.
각 상태에 대해 수락되는 문자열의 하한과 상한을 각각 Ainf와 Asup의 역방향 탐색을 통해 계산한다.
포인터 기반의 2k-호프 탐색을 사용하여, 후행 이중화 스타일 알고리즘으로 역어구 배열(Inverse Suffix Array, ISA)의 공-레크스 순서를 O(|Q| log |Q|) 시간 내에 계산한다.
분할 정렬 과정에서 추가 처리가 추가로 발생하더라도 전체 시간 복잡도가 O(|δ| log |Q|)를 유지함을 보여주기 위해 분할 분석을 활용한다.
C++로 알고리즘을 구현하고, 합성 및 실제 펜제놈 DFA에서 평가하여 WGT 이름 변경 히우리스틱과 비교한다.

실험 결과

연구 질문

RQ1웨일러 NFA의 상태에 대한 공-레크스 순서를 Paige-Tarjan 알고리즘의 이론적 하한선과 동일한 O(|δ| log |Q|) 시간 내에 계산할 수 있는가?
RQ2모든 DFA에 대해 최소 폭의 공-레크스 부분순서를 O(|δ| log |Q|) 시간 내에 계산할 수 있는가? 이는 이전의 O(|δ|² + |Q|⁵ᐟ²) bound 보다 향상된 것이다.
RQ3대규모 오토마타에서 제안된 분할 정렬과 가지치기 기법이 기존 도구인 WGT의 이름 변경 히우리스틱과 비교해 실질적으로 얼마나 뛰어난가?
RQ4가지치기 단계는 정확성을 유지하면서도 분할 정렬 과정에서 메모리와 시간 오버헤드를 얼마나 줄이는가?
RQ5실제 펜제놈 그래프에 대해 5000만 개 이상의 상태와 간선을 처리할 수 있을 정도로 알고리즘이 확장 가능한가? 이때 메모리 및 시간 복잡도는 낮은 수준을 유지하는가?

주요 결과

제안된 알고리즘은 모든 웨일러 NFA에 대해 O(|δ| log |Q|) 시간 내에 공-레크스 총전순서를 계산하며, Paige-Tarjan 알고리즘의 최적 복잡도를 정확히 따르고 있다.
DFAs의 경우, 이전의 O(|δ|² + |Q|⁵ᐟ²) bound 보다 향상된 O(|δ| log |Q|) 시간 내에 최소 폭의 공-레크스 부분순서를 계산한다.
100만 개 상태를 가진 NFA에서, 구현은 웨일러 전순서를 약 7초 내에 계산하여 거의 선형 확장성을 입증했다.
대규모 입력에서 WGT 이름 변경 히우리스틱 대비 최대 10,000배 빠른 실행 시간을 기록했으며, 메모리 사용량에서도 3배의 우수성을 보였다.
5100만 개 상태와 5300만 개 간선을 가진 펜제놈 DFA를 355초 내에 성공적으로 가지치기했으며, 피크 메모리 사용량은 33.2 GB에 불과했다.
가지치기 단계는 평균적으로 O(|δ|)의 추가 작업만을 추가하여, 전체 복잡도가 O(|δ| log |Q|)를 유지함을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.