Skip to main content
QUICK REVIEW

[论文解读] On Extensions of Maximal Repeats in Compressed Strings

Julian Pape-Lange|arXiv (Cornell University)|Jan 1, 2020
Algorithms and Data Compression参考文献 9被引用 3
一句话总结

本文通過對最大重複及其右擴展的組合分析,提出了一個新的上界:$ 73(\log_2 |S|)(z + 2)^2 $ 個運行次數,適用於字串 $ S $ 的運行長度 Burrows-Wheeler 變換(RLBWT)。該研究建立了最大對與 RLBWT 之間的全新聯繫,並提供了 Burrows-Wheeler 猜想的一種替代證明,該猜想最近由 Kempa 和 Kociumaka 解決。

ABSTRACT

This paper provides upper bounds for several subsets of maximal repeats and maximal pairs in compressed strings and also presents a formerly unknown relationship between maximal pairs and the run-length Burrows-Wheeler transform. This relationship is used to obtain a different proof for the Burrows-Wheeler conjecture which has recently been proven by Kempa and Kociumaka in "Resolution of the Burrows-Wheeler Transform Conjecture". More formally, this paper proves that the run-length Burrows-Wheeler transform of a string S with z_S LZ77-factors has at most 73(log₂ |S|)(z_S+2)² runs, and if S does not contain q-th powers, the number of arcs in the compacted directed acyclic word graph of S is bounded from above by 18q(1+log_q |S|)(z_S+2)².

研究动机与目标

  • 分析壓縮字串中最大重複及其右擴展的組合結構。
  • 基於 LZ77 因子,建立 RLBWT 中運行次數的更緊緻上界。
  • 揭示最大對與 RLBWT 之間的全新關係,從而提供 Burrows-Wheeler 猜想的另一種證明。
  • 深化對高度週期性結構如何影響 RLBWT 和 CDAWG 壓縮效率的理解。

提出的方法

  • 將最大重複及其右擴展作為衡量字串重複性的指標。
  • 引入「非高度週期性」或「短擴展」最大重複的概念,以減少重複計數。
  • 利用循環旋轉的字典序排序,透過 Burrows-Wheeler 變換的性質推導 RLBWT 運行次數的界。
  • 應用週期性論證與循環排列比較,證明僅有限的擴展會導致新運行的產生。
  • 利用 LZ77 因子與字串冪(q 次冪)的結構,界定不同最大對的數量。
  • 透過重複擴展的組合論證,推導出 RLBWT 運行次數與 CDAWG 擺動數量的上界。

实验结果

研究问题

  • RQ1對於具有 $ z $ 個 LZ77 因子且不含 $ q $-次冪的字串,其運行長度 Burrows-Wheeler 變換最多可有多少個運行?
  • RQ2最大對與 RLBWT 中運行數量之間的關係為何?
  • RQ3最大重複的右擴展數量能否以 $ z $ 和 $ \log |S| $ 表示?
  • RQ4高度週期性結構如何影響 RLBWT 運行次數與 CDAWG 擺動數量?
  • RQ5能否利用最大重複擴展推導出 Burrows-Wheeler 猜想的新證明?

主要发现

  • 對於具有 $ z $ 個 LZ77 因子且不含 $ q $-次冪的字串 $ S $,其運行長度 Burrows-Wheeler 變換中的運行次數最多為 $ 73(\log_2 |S|)(z + 2)^2 $。
  • 字串 $ S $ 的壓縮有向無環詞圖(CDAWG)中的擺動數量,其上界為 $ 18q(1 + \log_q |S|)(z + 2)^2 $。
  • 僅有一部分最大重複——即非高度週期性或無法以超過一個週期長度擴展的重複——會顯著貢獻於 RLBWT 運行次數。
  • 本文提供了 Burrows-Wheeler 猜想的替代證明,顯示 $ r \in O((\log |S|)z^2) $,與 Kempa 和 Kociumaka 的結果一致。
  • 證明對於每個最大重複,若其為 $ p^q $ 形式,則其兩次出現中至少有一個無法再延伸超過 $ |p| $ 個字元,從而限制了運行計數中的過度計數。
  • 研究結果表明,基於最大重複的基底簡化機制的壓縮資料結構,可達成 $ O((\log |S|)z^2) $ 個擺動數量,接近 CDAWG 的效率,且具有更佳的壓縮效果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。