Skip to main content
QUICK REVIEW

[논문 리뷰] Convergence of the Number of Period Sets in Strings

Éric Rivals, Michelle Sweering|arXiv (Cornell University)|2022. 09. 19.
Algorithms and Data Compression인용 수 2
한 줄 요약

이 논문은 1981년 구이바스와 올드리즈코가 제기한 오랜 동안 미해결된 추측을 해결한다. 즉, 길이 n인 문자열의 유효한 주기 집합의 수를 κn으로 표기할 때, ln(κn)이 ln²(n)의 상수배로 渐近 수렴한다는 것이다. 저자들은 ln(κn)/ln²(n)에 대한 날것의 상한을 확립하여, n → ∞일 때 이것이 1/(2 ln 2)로 수렴함을 증명한다. 또한 이 결과를 두 문자열 간의 상관관계로 확장하여, 유효한 상관관계의 수 δn에 대해서도 동일한 渐近 수렴 성질이 성립함을 보였다.

ABSTRACT

Consider words of length n. The set of all periods of a word of length n is a subset of {0,1,2,…,n-1}. However, any subset of {0,1,2,…,n-1} is not necessarily a valid set of periods. In a seminal paper in 1981, Guibas and Odlyzko proposed to encode the set of periods of a word into an n long binary string, called an autocorrelation, where a one at position i denotes the period i. They considered the question of recognizing a valid period set, and also studied the number of valid period sets for strings of length n, denoted κ_n. They conjectured that ln(κ_n) asymptotically converges to a constant times ln²(n). Although improved lower bounds for ln(κ_n)/ln²(n) were proposed in 2001, the question of a tight upper bound has remained open since Guibas and Odlyzko’s paper. Here, we exhibit an upper bound for this fraction, which implies its convergence and closes this longstanding conjecture. Moreover, we extend our result to find similar bounds for the number of correlations: a generalization of autocorrelations which encodes the overlaps between two strings.

연구 동기 및 목표

  • . 이 논문은 길이 n인 문자열의 유효한 주기 집합의 수에 대한 날것의 상한을 확립하는 오랜 동안 미해결된 문제를 해결하고자 한다.
  • 구이바스와 올드리즈코의 추측을 해결하고자 한다. 즉, ln(κn)이 ln²(n)에 대해 渐近적으로 비례함을 입증하고자 한다.
  • 저자들은 분석을 두 개의 서로 다른 문자열 간의 상관관계로 확장하여, 동일한 渐近 행동이 성립하는지 조사하고자 한다.
  • 저자들은 유효한 주기 집합의 구조를 기초로 하는 기초 주기 집합(irreducible period sets)을 사용하여 총 유효 주기 집합의 수를 날것의 점근적 상한으로 유도하고자 한다.

제안 방법

  • . 저자들은 리발스와 라만이 도입한 기초 주기 집합의 개념을 사용하여 유효한 주기 집합의 구조를 분석한다.
  • 모든 n ≥ 2에 대해 ln(κn) ≤ ln²(n)/(2 ln 2) + 3 ln(n)/2 임을 보여, ln(κn)에 대한 상한을 유도한다.
  • 증명은 임의의 유효한 자동상관관계가 0의 접두사와 더 짧은 문자열의 자동상관관계로 분해될 수 있다는 사실을 활용한다.
  • 모든 상관관계 ∆n의 집합은 0(n−j)sj의 형태를 가진 문자열들의 합집합으로 기술되며, 여기서 sj는 길이 j의 자동상관관계이다. 이에 따라 δn = Σj=0 to n κj 가 된다.
  • 이 기술을 바탕으로 δn을 상한으로 제한하고, 알려진 하한 및 상한 사이에 표현을 끼워넣음으로써 ln(δn)/ln²(n) → 1/(2 ln 2)임을 증명한다.
  • 분석은 알파벳 크기에 의존하지 않으며, |Σ| > 1일 경우 일반적인 유한 알파벳 기반 문자열에 대해 성립함을 보장한다.

실험 결과

연구 질문

  • RQ1. 비율 ln(κn)/ln²(n)은 渐近적으로 수렴하는가? 만약 그렇다면, 그 극한값은 무엇인가?
  • RQ2ln(κn)/ln²(n)에 대한 날것의 상한을 확립할 수 있는가? 이는 구이바스와 올드리즈코의 추측을 완전히 해결하는 데 기여한다.
  • RQ3두 개의 서로 다른 길이 n인 문자열 간의 상관관계 수에 대해서도 동일한 渐近 수렴 행동이 성립하는가?
  • RQ4기초 주기 집합은 총 유효 주기 집합의 수를 제한하는 데 어떻게 기여하는가?

주요 결과

  • . 논문은 날것의 상한을 확립한다: 모든 n ≥ 2에 대해 ln(κn) ≤ ln²(n)/(2 ln 2) + 3 ln(n)/2 이다.
  • 이에 따라 ln(κn)/ln²(n) → 1/(2 ln 2) (n → ∞) 임을 의미하며, 이는 1981년 구이바스와 올드리즈코의 추측을 해결한다.
  • 두 문자열 간의 상관관계 수 δn에 대해서도 동일한 渐近 수렴 성질이 성립한다: ln(δn)/ln²(n) → 1/(2 ln 2) (n → ∞) 이다.
  • 상관관계 수 δn은 정확히 자동상관관계 수의 합과 같다: δn = Σj=0 to n κj 이다.
  • 결과는 알파벳 크기에 영향을 받지 않으며, |Σ| > 1일 경우에 성립한다.
  • 상한은 자동상관관계를 0의 접두사와 후행 자동상관관계 성분으로 분해하는 구조적 분해를 통해 도출된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.