Skip to main content
QUICK REVIEW

[논문 리뷰] Doubly-Periodic String Comparison

Boris Bukh, Christopher Cox|arXiv (Cornell University)|2019. 12. 07.
Algorithms and Data Compression인용 수 3
한 줄 요약

이 논문은 무작위 단어 R과 이중 주기적 단어 W(n) 사이의 최장 공통 부분수열(LCS)의 기대 길이를 분석하기 위해 새로운 'frog dynamics' 입자 시스템을 도입한다. E[LCS(R, W(n))] = γW n − τW √n + O(1)로 표현되며, 여기서 γW와 τW는 계산 가능한 상수이다. 주요 기여는 LCS 渐近적 행동과 상호작용 입자 시스템을 연결하는 엄밀한 프레임워크를 제공하며, W의 기호가 모두 다를 경우 γW에 대한 명시적 공식을 제시하고, 랜덤 단어 쌍에서 LCS 행동에 대한 새로운 추측을 제기한다.

ABSTRACT

Let $W^{(n)}$ be the $n$-letter word obtained by repeating a fixed word $W$, and let $R_n$ be a random $n$-letter word over the same alphabet. We show several results about the length of the longest common subsequence (LCS) between $W^{(n)}$ and $R_n$; in particular, we show that its expectation is $γ_W n-O(\sqrt{n})$ for an efficiently-computable constant $γ_W$. This is done by relating the problem to a new interacting particle system, which we dub "frog dynamics". In this system, the particles (`frogs') hop over one another in the order given by their labels. Stripped of the labeling, the frog dynamics reduces to a variant of the PushTASEP. In the special case when all symbols of $W$ are distinct, we obtain an explicit formula for the constant $γ_W$ and a closed-form expression for the stationary distribution of the associated frog dynamics. In addition, we propose new conjectures about the asymptotic of the LCS of a pair of random words. These conjectures are informed by computer experiments using a new heuristic algorithm to compute the LCS. Through our computations, we found periodic words that are more random-like than a random word, as measured by the LCS.

연구 동기 및 목표

  • 고정된 주기적 단어와 무작위 단어 사이의 기대 LCS 길이를 이해함으로써 고전적인 랜덤-랜덤 LCS 문제를 넘어서는 것.
  • 주기적 환경에서 LCS 상수의 수렴 속도, 분포 행동, 계산 가능성에 관한 열린 질문을 해결하는 것.
  • 주기적 문자열에서의 LCS 행동을 모델링하고 분석하기 위해 새로운 상호작용 입자 시스템인 'frog dynamics'를 도입하는 것.
  • 해시 알고리즘과 시뮬레이션을 바탕으로 한 히ュ리스틱 알고리즘에 기반해 두 개의 랜덤 단어에 대한 LCS에 대한 새로운 추측을 제안하는 것.

제안 방법

  • 나쁨의 정도 순서로 서로를 뛰어넘는 라벨이 부여된 개미들이 움직이는 입자 시스템으로 LCS 문제를 모델링하여, PushTASEP의 변종과 동치인 동역학을 형성한다.
  • frog dynamics의 정적 분포를 정의하며, 커플링 추론과 Dyck 경로 조합론을 통해 이 분포가 LCS 渐近적 행동을 암시함을 보인다.
  • 무작위 단어와 주기적 단어 사이의 LCS를 계산하기 위해 동적 프로그래밍의 재귀적 접근을 사용하여 O(kn) 시간에 수행 가능하다. 여기서 k는 주기 길이이다.
  • γW(ρ)를 밀도 ρ의 조각별 선형, 비증가 기울기 함수로 유도하며, τW(ρ)가 0이 아닌 값으로 변하는 임계점에서 불연속성이 발생한다.
  • 보조 frog dynamics의 정적 분포에서 γW와 τW를 계산하는 알고리즘을 구축하여 상태 공간을 k!에서 |Σ|·2k로 감소시킨다.
  • 새로운 히ュ리스틱 LCS 알고리즘을 사용한 컴퓨터 시뮬레이션을 통해 E[LCS(R,R′)] = γn − Θ(n^{1/3})임을 추측하며, 이중 경우 γ ≈ 0.8122로 추정된다.

실험 결과

연구 질문

  • RQ1고정된 주기적 단어 W와 무작위 단어 R에 대해 E[LCS(R, W(n))]의 정밀한 渐近적 행동은 무엇인가?
  • RQ2LCS(R, W(n))의 분포 행동은 어떻게 되는가—특히, 渐近적으로 정규분포를 따르는가, 그리고 어떤 조건에서 그러한가?
  • RQ3주기적 단어의 LCS 상수 γW는 효율적으로 계산할 수 있는가, 그리고 그 구조는 단어의 기호 조합에 따라 어떻게 되는가?
  • RQ4랜덤 단어보다 더 높은 LCS 기대값을 갖는 주기적 단어가 존재하는가, 이는 그것들이 '더 무작위적인 것처럼' 행동할 수 있음을 시사하는가?
  • RQ5랜덤-랜덤 케이스에서 E[LCS(R,R′)]의 수렴 속도는 정확히 얼마이며, 분산은 n에 대해 선형으로 증가하는가?

주요 결과

  • 무작위 단어 R과 k-주기적 단어 W(n) 사이의 기대 LCS 길이는 E[LCS(R, W(n))] = γW n − τW √n + O(1)로 표현되며, γW와 τW는 W로부터 명시적으로 계산 가능하다.
  • 모든 기호가 서로 다른 단어의 경우, γW는 기호 빈도의 조화 평균을 포함하는 닫힌 형태의 표현식으로 주어지며, frog dynamics의 정적 분포는 Dyck 경로 위의 균일 측도이다.
  • τW = 0 이고 γW의 기울기가 양수이거나, W에 어떤 알파벳 기호가 누락된 경우, LCS 분포는 선형 분산을 갖는 渐近적으로 정규분포를 따른다. 그렇지 않은 경우 분산은 선형보다 작다.
  • τW ≠ 0일 경우, 적절한 스케일링 하에 LCS는 두 개의 i.i.d. 정규분포 랜덤 변수의 최소값에 대해 수렴하는 분포를 따른다.
  • 논문은 γW(1) ≥ 0.82118를 만족하는 주기적 이진 단어—예를 들어 W = 0110111010010110010001011010—를 식별하며, 이는 랜덤 단어 쌍에 대한 γ ≈ 0.8122의 추측값을 초월한다.
  • 시뮬레이션 결과로 E[LCS(R,R′)] = γn − Θ(n^{1/3})임을 추측하며, 이중 경우 γ ≈ 0.8122이며, LCS(R,R′)의 분산은 n에 대해 선형일 가능성이 높다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.