Skip to main content
QUICK REVIEW

[论文解读] Optimal Regular Expressions for Permutations

Antonio Molina Lovett, Jeffrey Shallit|arXiv (Cornell University)|Dec 15, 2018
semigroups and automata theory参考文献 8被引用 2
一句话总结

本文提出了一种分治构造方法,用于构建一个正则表达式 Rn,该表达式可指定 n 个符号字母表的所有排列,其字母长度达到最优的 4n n−(lg n)/4+Θ(1)。作者证明,该表达式在所有用于排列语言 Pn 的正则表达式中大小最小,优于先前的 2n−1 下界,并通过斯特林近似和递归不等式建立了紧致的渐近界。

ABSTRACT

The permutation language $P_n$ consists of all words that are permutations of a fixed alphabet of size $n$. Using divide-and-conquer, we construct a regular expression $R_n$ that specifies $P_n$. We then give explicit bounds for the length of $R_n$, which we find to be $4^n n^{-(\lg n)/4+Θ(1)}$, and use these bounds to show that $R_n$ has minimum size over all regular expressions specifying $P_n$.

研究动机与目标

  • 构造一个用于排列语言 Pn(即所有 n 个符号字母表排列的集合)的最小大小正则表达式。
  • 改进先前针对指定 Pn 的正则表达式的字母长度的弱下界 2n−1。
  • 通过递归分解与组合分析,建立最小正则表达式大小的紧致渐近界。
  • 证明所提出的分治构造方法可生成 Pn 的最小可能大小的正则表达式。
  • 将正则表达式的大小与斯特林公式联系起来,并为函数 f(n)(即表达式的字母长度)推导出精确的增长估计。

提出的方法

  • 采用递归的分治策略,将 E(S) 定义为所有大小为 ⌊n/2⌋ 的子集 T ⊆ S 的并集,其中每个 E(S) 由 E(T) 与 E(S−T) 的连接构成,基础情况为 E(i) = i。
  • 字母长度 f(n) 定义为递归形式:f(1) = 1,且当 n > 1 时,f(n) = (n choose ⌊n/2⌋) · (f(⌊n/2⌋) + f(⌈n/2⌉))。
  • 应用斯特林近似对 f(n) 进行渐近估计,特别针对 2 的幂次,得到 f(n) ≈ 4n n−(lg n)/4+Θ(1)。
  • 最优性证明依赖于一个关键引理:对所有 0 < k < n,有 (n choose k)(f(k) + f(n−k)) ≥ f(n),且等号成立当且仅当 k = ⌊n/2⌋ 或 k = ⌈n/2⌉。
  • 作者利用递归不等式和函数 gα(n) = n^α e^{−c√n} 的性质,推导出 f(n) 的上下界,将其与斯特林型近似联系起来。
  • 最后通过归纳法论证,结合 f(n+1) ≥ 3f(n) 的增长界,完成对所有 n ≥ 1 的最优性证明。

实验结果

研究问题

  • RQ1能否构造出字母长度显著小于平凡上界 n·n! 的 Pn 正则表达式?
  • RQ2基于将字母表划分为两个大小相等子集的分治构造,在表达式大小上是否最优?
  • RQ3指定 Pn 的最小字母长度正则表达式的紧致渐近界是什么?
  • RQ4所提出的构造是否达到理论最小大小,且能否对所有 n ≥ 1 严格证明?
  • RQ5表达式大小中的递归结构与组合系数如何与已知渐近近似(如斯特林公式)相关联?

主要发现

  • 所提出的 Pn 的正则表达式 Rn 的字母长度为 f(n) = 4n n−(lg n)/4+Θ(1),这是首个实现该渐近大小的显式构造。
  • 该构造被证明是最优的:任何指定 Pn 的正则表达式都无法比 f(n) 更小,优于先前的 2n−1 下界。
  • 最小大小唯一由在每一步递归中将字母表划分为大小为 ⌊n/2⌋ 和 ⌈n/2⌉ 的子集的分治策略实现。
  • 作者建立了紧致的上界 f(n) ≤ 1/4 g^{5/4−lg π/2}(n) 和下界 f(n) ≥ 0.195 g^{5/4−lg π/2}(n),其中 gα(n) = n^α e^{−c√n},确认了渐近增长速率。
  • 最优性证明的关键在于一个关键不等式:对所有 0 < k < n,有 (n choose k)(f(k) + f(n−k)) ≥ f(n),且等号仅在 k = ⌊n/2⌋ 或 k = ⌈n/2⌉ 时成立。
  • 函数 f(n) 的增长速度至少达到 3f(n−1),该性质用于弥合所有 n ≥ 1 的最优性归纳证明中的间隙。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。