[论文解读] On the number of squares in a finite word
本文证明了有限词 $ w $ 中不同非空平方因子的数量被限制在 $ |w| - | ext{Alph}(w)| + 1 $ 以内,从而证实了 Fraenkel 和 Simpson 长期以来的猜想。作者利用 Rauzy 图和小环路构造了一个从平方因子到这些环路的单射映射,借助词中共轭与周期性的组合性质。
A fundamental concept related to strings is that of repetitions. It has been extensively studied in many versions, from both purely combinatorial and algorithmic angles. One of the most basic questions is how many distinct squares, i.e., distinct strings of the form UU, a string of length n can contain as fragments. It turns out that this is always 𝒪(n), and the bound cannot be improved to sublinear in n [Fraenkel and Simpson, JCTA 1998]. Several similar questions about repetitions in strings have been considered, and by now we seem to have a good understanding of their repetitive structure. For higher-dimensional strings, the basic concept of periodicity has been successfully extended and applied to design efficient algorithms - it is inherently more complex than for regular strings. Extending the notion of repetitions and understanding the repetitive structure of higher-dimensional strings is however far from complete. Quartics were introduced by Apostolico and Brimkov [TCS 2000] as analogues of squares in two dimensions. Charalampopoulos, Radoszewski, Rytter, Waleń, and Zuba [ESA 2020] proved that the number of distinct quartics in an n×n 2D string is 𝒪(n²log²n) and that they can be computed in 𝒪(n²log²n) time. Gawrychowski, Ghazawi, and Landau [SPIRE 2021] constructed an infinite family of n×n 2D strings with Ω(n²log n) distinct quartics. This brings the challenge of determining asymptotically tight bounds. Here, we settle both the combinatorial and the algorithmic aspects of this question: the number of distinct quartics in an n×n 2D string is 𝒪(n²log n) and they can be computed in the worst-case optimal 𝒪(n²log n) time. As expected, our solution heavily exploits the periodic structure implied by occurrences of quartics. However, the two-dimensional nature of the problem introduces some technical challenges. Somewhat surprisingly, we overcome the final challenge for the combinatorial bound using a result of Marcus and Tardos [JCTA 2004] for permutation avoidance on matrices.
研究动机与目标
- 解决 Fraenkel 和 Simpson 于 1998 年提出的猜想,即有限词中不同非空平方因子的数量至多为其长度。
- 建立比以往已知结果更紧的平方复杂度上界,改进了如 $ \frac{3}{2}|w| $ 和 $ \frac{11}{6}|w| $ 等界。
- 利用 Rauzy 图和小环路构建一个结构化框架,以分析有限词中的平方因子。
- 证明不同平方因子的数量从根本上受到词长度和字母表大小的限制,而不仅仅是长度本身。
提出的方法
- 为每个 $ n \leq |w| $ 构造 Rauzy 图 $ \Gamma_n(w) $,其中顶点为 $ w $ 的长度为 $ n $ 的因子,边表示重叠关系。
- 在 Rauzy 图中定义“小环路”为对应于形如 $ uu $ 的重复模式的环,其中 $ u $ 是本原词。
- 根据根词的共轭类对平方因子进行分组,并将类的“指标”定义为根词的幂作为因子出现的最大次数。
- 利用共轭与周期性的性质,从每个不同的平方因子到 Rauzy 图并集中唯一的小环路建立单射映射。
- 利用 Rauzy 图并集的环圈数(cyclomatic number)来界定小环路的总数,从而上界化不同平方因子的数量。
- 利用 Fine 和 Wilf 引理以及 Lyndon-Sch"utzenberger 的结果分析周期结构,并确保映射的单射性。
实验结果
研究问题
- RQ1有限词中不同非空平方因子的数量能否比其长度更紧密地加以界定?
- RQ2Fraenkel-Simpson 猜想——即不同平方因子的数量至多为 $ |w| $ ——是否成立?能否将其加强为包含字母表大小的表达式?
- RQ3Rauzy 图和小环路的结构能否用于将平方因子单射地映射到图的特征上,从而实现计数?
- RQ4词中不同字母的数量如何影响其可包含的不同平方因子的最大数量?
- RQ5根词的共轭类与该根词的平方作为因子出现的次数之间存在何种精确关系?
主要发现
- 有限词 $ w $ 中不同非空平方因子的数量 $ S(w) $ 满足 $ S(w) \leq |w| - |\text{Alph}(w)| + 1 $,从而证明了该猜想。
- 该界比以往结果(如 $ \frac{3}{2}|w| $)更紧,并将字母表大小作为关键参数纳入其中。
- 从不同非空平方因子的集合到 $ w $ 的 Rauzy 图并集中小环路的集合构造了一个单射映射,从而证明了该界。
- 所有 Rauzy 图中不同小环路的总数被限制在 $ |w| - |\text{Alph}(w)| $ 以内,这直接限制了不同平方因子的数量。
- 对于字母表较小的词,该界显著变紧,例如对于单字母词,仅存在一个平方因子。
- 该证明依赖于共轭类与周期性的结构性质,映射的单射性通过小环路中唯一边序列得以保证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。