Skip to main content
QUICK REVIEW

[论文解读] Optimal LZ-End Parsing Is Hard

Hideo Bannai, Mitsuru Funakoshi|arXiv (Cornell University)|Jan 1, 2023
Natural Language Processing Techniques被引用 1
一句话总结

本文通过从顶点覆盖问题约化,证明了计算最优LZ-End解析——即在LZ-End约束下具有最少短语数的解析——是NP完全问题。此外,本文提出了一个MAX-SAT公式用于精确计算,并建立了贪心LZ-End解析相对于最优解析的近似比下界为2,表明对于某些二进制字符串,该比值渐近趋近于2。

ABSTRACT

LZ-End is a variant of the well-known Lempel-Ziv parsing family such that each phrase of the parsing has a previous occurrence, with the additional constraint that the previous occurrence must end at the end of a previous phrase. LZ-End was initially proposed as a greedy parsing, where each phrase is determined greedily from left to right, as the longest factor that satisfies the above constraint~[Kreft & Navarro, 2010]. In this work, we consider an optimal LZ-End parsing that has the minimum number of phrases in such parsings. We show that a decision version of computing the optimal LZ-End parsing is NP-complete by showing a reduction from the vertex cover problem. Moreover, we give a MAX-SAT formulation for the optimal LZ-End parsing adapting an approach for computing various NP-hard repetitiveness measures recently presented by [Bannai et al., 2022]. We also consider the approximation ratio of the size of greedy LZ-End parsing to the size of the optimal LZ-End parsing, and give a lower bound of the ratio which asymptotically approaches $2$.

研究动机与目标

  • 确定在LZ-End约束下寻找最优LZ-End解析的计算复杂度,即满足最少短语数的解析。
  • 通过MAX-SAT公式开发一种精确计算最优LZ-End解析的方法。
  • 分析贪心LZ-End解析与最优解析之间的近似比,特别是其最坏情况下的性能表现。

提出的方法

  • 将顶点覆盖问题约化为最优LZ-End解析的判定版本,以证明其NP完全性。
  • 构建一个包含O(n²)个变量和O(n²)个子句的MAX-SAT实例,以编码有效LZ-End解析的约束条件。
  • 使用软子句和基数约束来编码解析中的短语选择与引用规则。
  • 施加约束条件,确保每个短语要么开始一个新字符,要么引用一个在短语边界结束的后缀。
  • 采用线性大小编码来处理基数约束,以保持CNF规模可控。
  • 分析一族二进制字符串,推导出贪心解析与最优解析大小之间比值的下界。

实验结果

研究问题

  • RQ1计算最优LZ-End解析的问题是否为NP完全问题?
  • RQ2能否通过MAX-SAT公式精确计算最优LZ-End解析?
  • RQ3贪心LZ-End解析与最优解析之间的最坏情况近似比是多少?
  • RQ4贪心解析大小与最优解析大小的比值能否在渐近意义上超过2?

主要发现

  • 计算最优LZ-End解析的判定问题为NP完全问题,通过从顶点覆盖问题的约化得到证明。
  • 包含O(n²)个变量和O(n²)个子句的MAX-SAT公式可实现最优LZ-End解析的精确计算。
  • 对于一族二进制字符串,贪心LZ-End解析大小(ze)与最优解析大小(zend)的比值渐近趋近于2。
  • 在假设对所有字符串均有ze ≤ 2zno成立的前提下,比值ze/zend的下界2是紧的。
  • 该构造表明,贪心解析与最优解析之间的差距可任意远离,其差距趋近于2倍。
  • 该结果意味着在最坏情况下,贪心LZ-End解析无法保证其近似比优于2的常数倍。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。