Skip to main content
QUICK REVIEW

[논문 리뷰] Optimal Regular Expressions for Permutations

Antonio Molina Lovett, Jeffrey Shallit|arXiv (Cornell University)|2018. 12. 15.
semigroups and automata theory참고 문헌 8인용 수 2
한 줄 요약

이 논문은 n개의 기호로 구성된 알파벳의 모든 순열을 지정하는 정규 표현식 Rn의 분할 정복 구축 방법을 제시한다. 이 표현식은 알파벳 길이가 4n n−(lg n)/4+Θ(1)로 최적임을 확보한다. 저자들은 이 표현식이 순열 언어 Pn에 대해 모든 정규 표현식 중에서 크기가 최소임을 증명하며, 이는 이전의 2n−1 하한선을 개선하고 스타링의 근사법 및 재귀 부등식을 통해 엄밀한 점근적 경계를 확립한다.

ABSTRACT

The permutation language $P_n$ consists of all words that are permutations of a fixed alphabet of size $n$. Using divide-and-conquer, we construct a regular expression $R_n$ that specifies $P_n$. We then give explicit bounds for the length of $R_n$, which we find to be $4^n n^{-(\lg n)/4+Θ(1)}$, and use these bounds to show that $R_n$ has minimum size over all regular expressions specifying $P_n$.

연구 동기 및 목표

  • 모든 n기호 알파벳의 순열로 구성된 순열 언어 Pn에 대해 크기가 최소인 정규 표현식을 구성하는 것.
  • Pn를 지정하는 정규 표현식의 알파벳 길이에 대해 이전의 약한 하한선 2n−1을 개선하는 것.
  • 재귀적 분해와 조합 분석을 통해 Pn에 대한 최소 정규 표현식 크기의 엄밀한 점근적 경계를 설정하는 것.
  • 제안된 분할 정복 구축 방식이 Pn에 대해 가능한 최소 크기의 정규 표현식을 도출함을 증명하는 것.
  • 정규 표현식의 크기를 스타링의 공식과 연결하여 함수 f(n), 즉 표현식의 알파벳 길이에 대한 정확한 성장 추정치를 도출하는 것.

제안 방법

  • 재귀적 분할 정복 전략은 E(S)를 S의 크기가 ⌊n/2⌋인 모든 부분집합 T ⊆ S에 대해 E(T)와 E(S−T)의 연결으로 정의하며, 기저 사례로 E(i) = i로 설정한다.
  • 알파벳 길이 f(n)은 다음과 같이 재귀적으로 정의된다: f(1) = 1이며, n > 1일 경우 f(n) = (n choose ⌊n/2⌋) · (f(⌊n/2⌋) + f(⌈n/2⌉))이다.
  • 스타링의 근사를 적용하여 f(n)의 점근적 추정을 수행하며, 특히 2의 거듭제곱에 대해 f(n) ≈ 4n n−(lg n)/4+Θ(1)를 도출한다.
  • 최적성 증명은 핵심 보조정리에 기반한다. 이 보조정리는 모든 0 < k < n에 대해 (n choose k)(f(k) + f(n−k)) ≥ f(n)임을 보이며, 등호는 k = ⌊n/2⌋ 또는 k = ⌈n/2⌉일 때에만 성립한다.
  • 저자들은 재귀 부등식과 함수 gα(n) = n^α e^{−c√n}의 성질을 활용하여 f(n)의 상한 및 하한을 유도하며, 이를 스타링 유형의 근사와 연결한다.
  • 마지재로 귀납적 증명을 완성하기 위해 f(n+1) ≥ 3f(n)의 성장 경계를 활용하며, 이는 모든 n ≥ 1에 대해 최적성 증명의 간극을 메운다.

실험 결과

연구 질문

  • RQ1순열 언어 Pn에 대해, 기하급수적 상한 n·n!보다 훨씬 작은 알파벳 길이를 갖는 정규 표현식을 구성할 수 있는가?
  • RQ2알파벳을 두 개의 동일한 크기의 부분집합으로 나누는 기반의 분할 정복 구축 방식이 표현식 크기 측면에서 최적인가?
  • RQ3Pn를 지정하는 정규 표현식의 최소 알파벳 길이에 대한 엄밀한 점근적 경계는 무엇인가?
  • RQ4제안된 구축 방식이 이론적으로 가능한 최소 크기를 달성하며, 이는 모든 n ≥ 1에 대해 엄밀하게 증명될 수 있는가?
  • RQ5표현식 크기의 재귀적 구조와 조합 계수는 기존의 점근적 근사(예: 스타링의 공식)와 어떻게 관련이 있는가?

주요 결과

  • 제안된 Pn에 대한 정규 표현식 Rn의 알파벳 길이는 f(n) = 4n n−(lg n)/4+Θ(1)이며, 이는 이 점근적 크기를 달성하는 최초의 명시적 구축이다.
  • 이 구축 방식은 최적임이 증명된다: Pn를 지정하는 어떤 정규 표현식도 f(n)보다 작을 수 없다. 이는 이전의 2n−1 하한선을 초월하는 개선이다.
  • 최소 크기는 유일하게 각 재귀 단계에서 알파벳을 크기가 ⌊n/2⌋과 ⌈n/2⌉인 부분집합으로 나누는 분할 정복 전략에 의해 달성된다.
  • 저자들은 f(n) ≤ 1/4 g^{5/4−lg π/2}(n)의 엄밀한 상한과 f(n) ≥ 0.195 g^{5/4−lg π/2}(n)의 하한을 확립하며, gα(n) = n^α e^{−c√n}을 통해 점근적 성장률을 확인한다.
  • 최적성 증명의 핵심은 다음과 같은 중요한 부등식이다: 모든 0 < k < n에 대해 (n choose k)(f(k) + f(n−k)) ≥ f(n)이며, 등호는 k = ⌊n/2⌋ 또는 k = ⌈n/2⌉일 때에만 성립한다.
  • 함수 f(n)는 최소한 3f(n−1)의 속도로 증가하며, 이는 모든 n ≥ 1에 대해 최적성에 대한 귀납적 증명의 간극을 메우는 데 사용된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.