Skip to main content
QUICK REVIEW

[论文解读] Approximation of smallest linear tree grammar

Artur Jeż, Markus Lohrey|arXiv (Cornell University)|Sep 19, 2013
Algorithms and Data Compression被引用 3
一句话总结

该论文提出 TtoG 算法,一种线性时间算法,可为大小为 n 的给定树构建大小为 O(rg + r g log(n/rg)) 的线性上下文无关树语法,其中 g 是此类语法的最小大小,r 为最大符号秩。该方法将字符串重压缩技术扩展至树结构,首次实现了 O(log(n/g)) 的语法压缩近似比,输入大小中具有对数因子,r 中具有常数因子。

ABSTRACT

A simple linear-time algorithm for constructing a linear context-free tree grammar of size O(rg + r g log (n/r g))for a given input tree T of size n is presented, where g is the size of a minimal linear context-free tree grammar for T, and r is the maximal rank of symbols in T (which is a constant in many applications). This is the first example of a grammar-based tree compression algorithm with a good, i.e. logarithmic in terms of the size of the input tree, approximation ratio. The analysis of the algorithm uses an extension of the recompression technique from strings to trees.

研究动机与目标

  • 开发一种具有可证明良好近似比的基于语法的树压缩算法。
  • 将先前用于 SLP 构造的字符串重压缩技术扩展至树形数据。
  • 解决现有树语法压缩器(如 TreeRePair)缺乏理论保证的问题,后者在可压缩为 O(log n) 大小的树上可能产生大小为 Ω(n) 的语法。
  • 为高效、接近最小的树语法压缩提供理论基础,并具备可证明的性能边界。
  • 探索将该方法扩展至非线性语法、图语法以及无序或无秩树的潜力。

提出的方法

  • 该算法采用源自字符串压缩的两阶段重压缩技术:块压缩与配对压缩,迭代应用于树结构。
  • 块压缩将形式为 f(a, ..., a) 的重复子树替换为新符号,以减少相同子树中的冗余。
  • 配对压缩将每对子树(左与右)的出现替换为新符号,使用一种分区策略以最大化压缩效果。
  • 该算法以阶段方式处理树,维护一个表示当前压缩形式的语法,每个阶段将树大小减少常数倍。
  • 通过势函数论证方法,对引入新符号的成本进行界限分析,表明总语法大小为 O(rg + r g log(n/rg))。
  • 通过人为对节点进行排名,将该方法扩展至无秩树,同时保持相同的近似保证。

实验结果

研究问题

  • RQ1基于语法的树压缩算法能否在最小线性上下文无关树语法大小上实现 O(log(n/g)) 的近似比?
  • RQ2字符串重压缩技术如何推广至树结构,同时保持效率和近似保证?
  • RQ3最大符号秩 r 对树语法压缩近似比有何影响?
  • RQ4重压缩方法能否被调整以处理无序或无秩树而不损失压缩效率?
  • RQ5是否可能将该方法扩展至非线性或基于图的语法,以实现更大的压缩效果?

主要发现

  • TtoG 算法为任意大小为 n 的输入树构建了大小为 O(rg + r g log(n/rg)) 的线性上下文无关树语法,其中 g 是此类语法的最小大小。
  • 当最大符号秩 r 有界时,近似比为 O(log(n/g)),这是首次在基于语法的树压缩中实现此类结果。
  • 该算法运行时间为线性时间,适用于大规模树数据。
  • 分析表明,压缩过程中引入新符号的成本被限制在 O(rg + r g log(n/rg)) 以内,主要项为对数因子。
  • 该方法对树结构具有鲁棒性,适用于有序和无序有秩树,且可通过人为排序扩展至无秩树。
  • 该方法为未来在非线性语法和图语法方面的研究提供了理论基础,表明有望实现进一步的压缩增益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。