Skip to main content
QUICK REVIEW

[论文解读] Quasi-Linear-Time Algorithm for Longest Common Circular Factor

Mai Alzamel, Maxime Crochemore|arXiv (Cornell University)|Jan 1, 2019
Algorithms and Data Compression参考文献 28被引用 2
一句话总结

本论文提出了首个针对最长公共循环因子(LCCF)问题的准线性时间算法,以 O(n log⁵ n) 时间复杂度和 O(n log² n) 空间复杂度解决该问题。该方法结合后缀数组、同步片段、Lyndon 分解和几何技术,将问题转化为相容的 4D 矩形相交问题,从而实现对字符串 S 中最长因子的高效计算,该因子的循环移位出现在字符串 T 中。

ABSTRACT

We introduce the Longest Common Circular Factor (LCCF) problem in which, given strings $S$ and $T$ of length $n$, we are to compute the longest factor of $S$ whose cyclic shift occurs as a factor of $T$. It is a new similarity measure, an extension of the classic Longest Common Factor. We show how to solve the LCCF problem in $O(n \log^5 n)$ time.

研究动机与目标

  • 提出并解决最长公共循环因子(LCCF)问题,这是一种新颖的字符串相似性度量,扩展了经典的最长公共因子(LCF)问题。
  • 设计一种高效算法,用于计算字符串 S 中最长的因子,其循环移位作为因子出现在字符串 T 中。
  • 实现显著低于二次时间复杂度的性能,目标是尽管循环因子匹配具有非平凡性,仍达到准线性时间复杂度。
  • 证明 LCCF 问题可被约化为具有兼容性约束的 4D 矩形相交几何问题。

提出的方法

  • 该算法使用后缀数组和加权祖先查询,以高效定位片段出现位置并计算匹配因子的区间。
  • 应用 τ-同步函数识别非周期性片段,使用 Lyndon 分解处理高度周期性情况。
  • 将问题约化为检查 4D 矩形的相交,其中每个矩形编码了 S 和 T 中一对连续片段的位置约束。
  • 使用扫描线算法求解 4D 中相容矩形的最大权重相交问题,权重基于片段长度。
  • 利用子串出现位置在后缀数组中形成区间这一事实,实现基于范围的成员关系检查。
  • 通过结合内部模式匹配与几何优化,实现最终的时间复杂度。

实验结果

研究问题

  • RQ1鉴于 LCCF 问题是经典 LCF 问题的扩展,能否在亚二次时间内求解?
  • RQ2计算字符串 S 中其循环移位作为因子出现在 T 中的最长因子,所能达到的最优时间复杂度是多少?
  • RQ3如何利用字符串数据结构高效编码并查询因子匹配的循环特性?
  • RQ4几何技术能否有效应用于具有多重约束的内部字符串模式匹配问题?

主要发现

  • LCCF 问题可在 O(n log⁵ n) 时间复杂度和 O(n log² n) 空间复杂度下求解,相较于朴素方法有显著改进。
  • 该算法通过将问题约化为 4D 中相容矩形的最大权重相交问题实现高效性,该问题可在 O(m log³ m) 时间内求解。
  • 使用同步片段可确保 S 和 T 中匹配片段的一致对齐,从而实现正确的几何编码。
  • 通过基于 Lyndon 分解和同步函数的独立策略,该方法同时处理非周期性和高度周期性情况。
  • 该解决方案具有鲁棒性和通用性,通过将因子分解为 (a,b) 类型组件,支持所有可能的循环因子类型。
  • 该算法是首个实现 LCCF 问题准线性时间复杂度的算法,为线性时间解法的存在留下可能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。