Skip to main content
QUICK REVIEW

[论文解读] On Undetected Redundancy in the Burrows-Wheeler Transform

Uwe Baier|arXiv (Cornell University)|Jan 1, 2018
Neural Networks and Applications被引用 2
一句话总结

本文提出了一种名为'tunneling'的新技术,通过利用Burrows-Wheeler变换(BWT)的组合结构来缩短运行长度,从而减小BWT的大小,同时保持其可逆性。该方法在基于BWT的压缩器中实现了平均8–16%的大小缩减,最优情况下可达33–57%,使这些压缩器在保持BWT在序列分析和索引方面优势的同时,与最先进的无损压缩器具有竞争力。

ABSTRACT

The Burrows-Wheeler-Transform (BWT) is an invertible permutation of a text known to be highly compressible but also useful for sequence analysis, what makes the BWT highly attractive for lossless data compression. In this paper, we present a new technique to reduce the size of a BWT using its combinatorial properties, while keeping it invertible. The technique can be applied to any BWT-based compressor, and, as experiments show, is able to reduce the encoding size by 8-16 % on average and up to 33-57 % in the best cases (depending on the BWT-compressor used), making BWT-based compressors competitive or even superior to today's best lossless compressors.

研究动机与目标

  • 解决BWT运行长度编码中尚未充分探索的冗余问题,尽管BWT本身具有很高的可压缩性,但该冗余限制了压缩效率。
  • 开发一种在保持可逆性及FM索引所需组合性质的同时减小BWT编码大小的技术。
  • 证明基于BWT的压缩器可实现与现代无损压缩器相当或更优的压缩比。
  • 提供一种实用且理论可靠的通用方法,适用于任何基于BWT的压缩器,无论其底层运行长度编码方案如何。

提出的方法

  • tunneling技术通过利用后缀数组的组合性质和BWT的结构特征,识别并缩短BWT中的运行长度。
  • 采用基于块的处理方式,将运行长度分组为块,并对内部冲突块进行处理以减少冗余。
  • 设计评分机制,根据内部块对运行长度编码的影响程度调整其贡献,从而最小化编码大小。
  • 依赖广义LF映射和波浪树结构来维持可逆性,并支持反向搜索操作。
  • 通过修改后的BWT编码流水线实现该算法,将运行长度优化集成在最终压缩之前。
  • 该技术与后端压缩器无关,因此可与现有基于BWT的系统(如bzip2、bwz、bcm和wt)兼容。

实验结果

研究问题

  • RQ1是否可以系统性地减少BWT中冗余的运行长度编码,而不损害其可逆性?
  • RQ2利用对BWT结构的组合洞察,其编码大小最多可减少多少?
  • RQ3所提出的tunneling技术是否保持了BWT在FM索引和压缩序列分析中的适用性?
  • RQ4tunneling在不同数据类型和后端压缩器上的性能和压缩增益表现如何?

主要发现

  • tunneling在多样化数据集上使基于BWT的压缩器编码大小平均减少8–16%。
  • 在最优情况下,压缩大小减少可达33–57%,尤其在重复或结构化数据上,对bwz和wt等压缩器收益显著。
  • 该技术保持了完全可逆性,并保留了BWT的结构特性,确保与FM索引和压缩模式匹配的兼容性。
  • 使用tunneling的最佳压缩版本(bcm-tunneled)优于其他基于BWT的压缩器,并在重复数据上与xz性能相当。
  • 该方法使编码时间和空间约增加一倍,但显著降低了解码时间和空间,为许多应用场景提供了有利的权衡。
  • 压缩增益的模型拟合效果良好,异常值影响极小(净损失≤0.3%),且在不同压缩器和数据模型下结果均具鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。