Skip to main content
QUICK REVIEW

[论文解读] Doubly-Periodic String Comparison

Boris Bukh, Christopher Cox|arXiv (Cornell University)|Dec 7, 2019
Algorithms and Data Compression被引用 3
一句话总结

本文引入一种新颖的‘青蛙动力学’粒子系统,用于分析随机词 R 与双周期词 W(n) 之间最长公共子序列(LCS)的期望长度,表明 E[LCS(R, W(n))] = γW n − τW √n + O(1),其中 γW 和 τW 为可计算常数。其主要贡献在于建立 LCS 渐近行为与相互作用粒子系统之间 rigorously 的框架,并在 W 的符号互不相同时给出 γW 的显式公式,同时提出关于随机词对中 LCS 行为的新猜想。

ABSTRACT

Let $W^{(n)}$ be the $n$-letter word obtained by repeating a fixed word $W$, and let $R_n$ be a random $n$-letter word over the same alphabet. We show several results about the length of the longest common subsequence (LCS) between $W^{(n)}$ and $R_n$; in particular, we show that its expectation is $γ_W n-O(\sqrt{n})$ for an efficiently-computable constant $γ_W$. This is done by relating the problem to a new interacting particle system, which we dub "frog dynamics". In this system, the particles (`frogs') hop over one another in the order given by their labels. Stripped of the labeling, the frog dynamics reduces to a variant of the PushTASEP. In the special case when all symbols of $W$ are distinct, we obtain an explicit formula for the constant $γ_W$ and a closed-form expression for the stationary distribution of the associated frog dynamics. In addition, we propose new conjectures about the asymptotic of the LCS of a pair of random words. These conjectures are informed by computer experiments using a new heuristic algorithm to compute the LCS. Through our computations, we found periodic words that are more random-like than a random word, as measured by the LCS.

研究动机与目标

  • 理解随机词与固定周期词之间最长公共子序列(LCS)长度的期望值,将研究范围从经典的随机-随机 LCS 问题扩展至更广的背景。
  • 解决关于周期设定下 LCS 常数收敛速率、分布行为及可计算性的开放问题。
  • 引入一种新型相互作用粒子系统——‘青蛙动力学’,以建模和分析周期字符串中的 LCS 行为。
  • 基于启发式算法与模拟结果,提出关于两随机词 LCS 的新猜想。

提出的方法

  • 将 LCS 问题建模为粒子系统,其中带标签的青蛙按粗鲁程度顺序相互跳跃,形成与 PushTASEP 变体等价的动力学。
  • 为青蛙动力学定义平稳分布,通过耦合论证与 Dyck 路径组合学编码 LCS 渐近行为。
  • 采用递归动态规划方法,在 O(kn) 时间内计算随机词与周期词之间的 LCS,其中 k 为周期长度。
  • 将 γW(ρ) 表示为密度 ρ 的分段线性、非增斜率函数,其在 τW(ρ) 首次非零的临界点处出现不连续。
  • 设计一种算法,从 m-排列上的辅助青蛙动力学的平稳分布中计算 γW 与 τW,将状态空间从 k! 降低至 |Σ|·2k。
  • 利用新型启发式 LCS 算法进行计算机模拟,推测两随机词对的 E[LCS(R,R′)] = γn − Θ(n^{1/3}),其中二进制情况下 γ ≈ 0.8122。

实验结果

研究问题

  • RQ1对于固定周期词 W 与随机词 R,E[LCS(R, W(n))] 的精确渐近行为是什么?
  • RQ2LCS(R, W(n)) 的分布行为如何——具体而言,其是否渐近正态,且在何种条件下成立?
  • RQ3周期词的 LCS 常数 γW 是否可高效计算,其结构如何依赖于词的符号组成?
  • RQ4是否存在某些周期词,其 LCS 期望值高于随机词,暗示其更具‘随机性’?
  • RQ5在随机-随机情形下,E[LCS(R,R′)] 的正确收敛速率为何?其方差是否随 n 线性增长?

主要发现

  • 随机词 R 与 k-周期词 W(n) 之间 LCS 长度的期望值为 E[LCS(R, W(n))] = γW n − τW √n + O(1),其中 γW 与 τW 可由 W 显式计算。
  • 当词中所有符号互不相同时,γW 由符号频率的调和平均值给出闭式表达式,且青蛙动力学的平稳分布为 Dyck 路径上的均匀测度。
  • 当 τW = 0 且 γW 的斜率为正,或 W 中缺少某种字母时,LCS 分布渐近正态且方差为线性;否则方差为次线性。
  • 当 τW ≠ 0 时,经适当缩放后,LCS 的分布收敛于两个独立同分布高斯随机变量的最小值。
  • 本文识别出某些周期二进制词(如 W = 0110111010010110010001011010),其 γW(1) ≥ 0.82118,高于随机词对的猜想值 γ ≈ 0.8122。
  • 模拟结果表明,E[LCS(R,R′)] = γn − Θ(n^{1/3}),在二进制情况下 γ ≈ 0.8122,且 LCS(R,R′) 的方差可能随 n 线性增长。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。