QUICK REVIEW
[论文解读] Optimal Regular Expressions for Permutations
Antonio Molina Lovett, Jeffrey Shallit|arXiv (Cornell University)|Dec 15, 2018
semigroups and automata theory参考文献 8被引用 2
一句话总结
本文提出了一种分治构造方法,用于构建一个正则表达式 Rn,该表达式可指定 n 个符号字母表的所有排列,其字母长度达到最优的 4n n−(lg n)/4+Θ(1)。作者证明,该表达式在所有用于排列语言 Pn 的正则表达式中大小最小,优于先前的 2n−1 下界,并通过斯特林近似和递归不等式建立了紧致的渐近界。
ABSTRACT
The permutation language $P_n$ consists of all words that are permutations of a fixed alphabet of size $n$. Using divide-and-conquer, we construct a regular expression $R_n$ that specifies $P_n$. We then give explicit bounds for the length of $R_n$, which we find to be $4^n n^{-(\lg n)/4+Θ(1)}$, and use these bounds to show that $R_n$ has minimum size over all regular expressions specifying $P_n$.
研究动机与目标
- 构造一个用于排列语言 Pn(即所有 n 个符号字母表排列的集合)的最小大小正则表达式。
- 改进先前针对指定 Pn 的正则表达式的字母长度的弱下界 2n−1。
- 通过递归分解与组合分析,建立最小正则表达式大小的紧致渐近界。
- 证明所提出的分治构造方法可生成 Pn 的最小可能大小的正则表达式。
- 将正则表达式的大小与斯特林公式联系起来,并为函数 f(n)(即表达式的字母长度)推导出精确的增长估计。
提出的方法
- 采用递归的分治策略,将 E(S) 定义为所有大小为 ⌊n/2⌋ 的子集 T ⊆ S 的并集,其中每个 E(S) 由 E(T) 与 E(S−T) 的连接构成,基础情况为 E(i) = i。
- 字母长度 f(n) 定义为递归形式:f(1) = 1,且当 n > 1 时,f(n) = (n choose ⌊n/2⌋) · (f(⌊n/2⌋) + f(⌈n/2⌉))。
- 应用斯特林近似对 f(n) 进行渐近估计,特别针对 2 的幂次,得到 f(n) ≈ 4n n−(lg n)/4+Θ(1)。
- 最优性证明依赖于一个关键引理:对所有 0 < k < n,有 (n choose k)(f(k) + f(n−k)) ≥ f(n),且等号成立当且仅当 k = ⌊n/2⌋ 或 k = ⌈n/2⌉。
- 作者利用递归不等式和函数 gα(n) = n^α e^{−c√n} 的性质,推导出 f(n) 的上下界,将其与斯特林型近似联系起来。
- 最后通过归纳法论证,结合 f(n+1) ≥ 3f(n) 的增长界,完成对所有 n ≥ 1 的最优性证明。
实验结果
研究问题
- RQ1能否构造出字母长度显著小于平凡上界 n·n! 的 Pn 正则表达式?
- RQ2基于将字母表划分为两个大小相等子集的分治构造,在表达式大小上是否最优?
- RQ3指定 Pn 的最小字母长度正则表达式的紧致渐近界是什么?
- RQ4所提出的构造是否达到理论最小大小,且能否对所有 n ≥ 1 严格证明?
- RQ5表达式大小中的递归结构与组合系数如何与已知渐近近似(如斯特林公式)相关联?
主要发现
- 所提出的 Pn 的正则表达式 Rn 的字母长度为 f(n) = 4n n−(lg n)/4+Θ(1),这是首个实现该渐近大小的显式构造。
- 该构造被证明是最优的:任何指定 Pn 的正则表达式都无法比 f(n) 更小,优于先前的 2n−1 下界。
- 最小大小唯一由在每一步递归中将字母表划分为大小为 ⌊n/2⌋ 和 ⌈n/2⌉ 的子集的分治策略实现。
- 作者建立了紧致的上界 f(n) ≤ 1/4 g^{5/4−lg π/2}(n) 和下界 f(n) ≥ 0.195 g^{5/4−lg π/2}(n),其中 gα(n) = n^α e^{−c√n},确认了渐近增长速率。
- 最优性证明的关键在于一个关键不等式:对所有 0 < k < n,有 (n choose k)(f(k) + f(n−k)) ≥ f(n),且等号仅在 k = ⌊n/2⌋ 或 k = ⌈n/2⌉ 时成立。
- 函数 f(n) 的增长速度至少达到 3f(n−1),该性质用于弥合所有 n ≥ 1 的最优性归纳证明中的间隙。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。