[논문 리뷰] On the number of squares in a finite word
이 논문은 유한어 w에서 서로 다른 비어 있지 않은 제곱 인자의 수가 |w| - |Alph(w)| + 1로 유계임을 증명하며, Fraenkel과 Simpson의 오랜 추측을 확인한다. 저자들은 Rauzy 그래프와 소규순환을 사용하여 제곱 인자를 이러한 순환으로의 단사 사상으로 구성하며, 어휘의 공액성과 주기성의 조합적 성질을 활용한다.
A fundamental concept related to strings is that of repetitions. It has been extensively studied in many versions, from both purely combinatorial and algorithmic angles. One of the most basic questions is how many distinct squares, i.e., distinct strings of the form UU, a string of length n can contain as fragments. It turns out that this is always 𝒪(n), and the bound cannot be improved to sublinear in n [Fraenkel and Simpson, JCTA 1998]. Several similar questions about repetitions in strings have been considered, and by now we seem to have a good understanding of their repetitive structure. For higher-dimensional strings, the basic concept of periodicity has been successfully extended and applied to design efficient algorithms - it is inherently more complex than for regular strings. Extending the notion of repetitions and understanding the repetitive structure of higher-dimensional strings is however far from complete. Quartics were introduced by Apostolico and Brimkov [TCS 2000] as analogues of squares in two dimensions. Charalampopoulos, Radoszewski, Rytter, Waleń, and Zuba [ESA 2020] proved that the number of distinct quartics in an n×n 2D string is 𝒪(n²log²n) and that they can be computed in 𝒪(n²log²n) time. Gawrychowski, Ghazawi, and Landau [SPIRE 2021] constructed an infinite family of n×n 2D strings with Ω(n²log n) distinct quartics. This brings the challenge of determining asymptotically tight bounds. Here, we settle both the combinatorial and the algorithmic aspects of this question: the number of distinct quartics in an n×n 2D string is 𝒪(n²log n) and they can be computed in the worst-case optimal 𝒪(n²log n) time. As expected, our solution heavily exploits the periodic structure implied by occurrences of quartics. However, the two-dimensional nature of the problem introduces some technical challenges. Somewhat surprisingly, we overcome the final challenge for the combinatorial bound using a result of Marcus and Tardos [JCTA 2004] for permutation avoidance on matrices.
연구 동기 및 목표
- 1998년 Fraenkel과 Simpson이 제기한 추측을 해결하는 것: 유한어 내 서로 다른 비어 있지 않은 제곱 인자의 수는 그 길이 이하이다.
- 이전에 알려진 결과들, 예를 들어 $ \frac{3}{2}|w| $ 및 $ \frac{11}{6}|w| $와 같은 결과보다 더 날카로운 상한을 제시하는 것.
- Rauzy 그래프와 소규순환을 사용하여 유한어 내 제곱 인자를 분석하기 위한 구조적 프레임워크를 수립하는 것.
- 서로 다른 제곱 인자의 수가 어휘 길이와 알파벳 크기의 영향을 받는다는 점을 입증하여, 길이만으로 제한되는 것이 아니라 본질적으로 제약을 받는다는 점을 밝혀내는 것.
제안 방법
- 각 $ n \leq |w| $ 에 대해 Rauzy 그래프 $ \Gamma_n(w) $ 를 구성한다. 여기서 정점은 w의 길이 n인 부분어이며, 간선은 겹침을 나타낸다.
- Rauzy 그래프 내 '소규순환'을 정의한다. 이는 u가 원시어일 때 형태 $ uu $ 의 반복 패턴에 해당하는 순환이다.
- 근본어의 공액성에 따라 제곱 인자를 클래스로 묶고, 각 클래스의 '색인'을 근본어의 거듭제곱이 부분어로 나타나는 최대 횟수로 정의한다.
- 공액성과 주기성의 성질을 활용하여 각 서로 다른 제곱 인자에서 유니크한 소규순환으로의 단사 사상을 수립한다.
- Rauzy 그래프의 합집합의 사이클 수를 사용하여 소규순환 총수를 유계화함으로써, 서로 다른 제곱 인자의 수를 상한화한다.
- Fine와 Wilf의 보조정리 및 Lyndon-Sch"utzenberger 결과를 활용하여 주기적 구조를 분석하고, 사상의 단사성을 보장한다.
실험 결과
연구 질문
- RQ1유한어 내 서로 다른 비어 있지 않은 제곱 인자의 수는 길이 이외의 요소로 더 날카롭게 유계화될 수 있는가?
- RQ2Fraenkel-Simpson 추측—서로 다른 제곱 인자의 수는 최대 $ |w| $ 이다—는 참인가? 그리고 알파벳 크기를 포함하여 강화될 수 있는가?
- RQ3Rauzy 그래프와 소규순환의 구조를 사용하여 제곱 인자를 그래프의 특성으로 단사적으로 매핑할 수 있는가? 이를 통해 세는 것이 가능해지는가?
- RQ4어휘 내 서로 다른 문자의 수가 포함된 어휘에서 최대 몇 개의 서로 다른 제곱 인자를 포함할 수 있는가?
- RQ5근본어의 공액류와 그 제곱이 부분어로 나타나는 횟수 사이의 정확한 관계는 무엇인가?
주요 결과
- 유한어 w 내 서로 다른 비어 있지 않은 제곱 인자 수 $ S(w) $ 는 $ S(w) \leq |w| - |\text{Alph}(w)| + 1 $ 를 만족하며, 이는 추측을 증명한다.
- 이 유계는 이전 결과들, 예를 들어 $ \frac{3}{2}|w| $ 와 같은 결과보다 엄밀히 더 날카롭고, 알파벳 크기를 핵심 매개변수로 포함한다.
- 서로 다른 비어 있지 않은 제곱 인자 집합에서 Rauzy 그래프의 합집합 내 소규순환 집합으로의 단사 사상이 구성되었으며, 이는 유계를 증명한다.
- 모든 Rauzy 그래프에 걸친 소규순환 총수는 $ |w| - |\text{Alph}(w)| $ 로 유계화되며, 이는 서로 다른 제곱 인자의 수를 직접 제한한다.
- 작은 알파벳을 가진 어휘의 경우 이 유계는 상당히 날카로워지며, 예를 들어 일원어의 경우 오직 하나의 제곱 인자만 존재한다.
- 증명은 공액류의 구조적 성질과 주기성에 기반하며, 소규순환 내 고유한 간선 순서로 단사성이 보장된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.