[论文解读] On Undetected Redundancy in the Burrows-Wheeler Transform
本文提出了一种名为'tunneling'的新技术,通过利用Burrows-Wheeler变换(BWT)的组合结构来缩短运行长度,从而减小BWT的大小,同时保持其可逆性。该方法在基于BWT的压缩器中实现了平均8–16%的大小缩减,最优情况下可达33–57%,使这些压缩器在保持BWT在序列分析和索引方面优势的同时,与最先进的无损压缩器具有竞争力。
The Burrows-Wheeler-Transform (BWT) is an invertible permutation of a text known to be highly compressible but also useful for sequence analysis, what makes the BWT highly attractive for lossless data compression. In this paper, we present a new technique to reduce the size of a BWT using its combinatorial properties, while keeping it invertible. The technique can be applied to any BWT-based compressor, and, as experiments show, is able to reduce the encoding size by 8-16 % on average and up to 33-57 % in the best cases (depending on the BWT-compressor used), making BWT-based compressors competitive or even superior to today's best lossless compressors.
研究动机与目标
- 解决BWT运行长度编码中尚未充分探索的冗余问题,尽管BWT本身具有很高的可压缩性,但该冗余限制了压缩效率。
- 开发一种在保持可逆性及FM索引所需组合性质的同时减小BWT编码大小的技术。
- 证明基于BWT的压缩器可实现与现代无损压缩器相当或更优的压缩比。
- 提供一种实用且理论可靠的通用方法,适用于任何基于BWT的压缩器,无论其底层运行长度编码方案如何。
提出的方法
- tunneling技术通过利用后缀数组的组合性质和BWT的结构特征,识别并缩短BWT中的运行长度。
- 采用基于块的处理方式,将运行长度分组为块,并对内部冲突块进行处理以减少冗余。
- 设计评分机制,根据内部块对运行长度编码的影响程度调整其贡献,从而最小化编码大小。
- 依赖广义LF映射和波浪树结构来维持可逆性,并支持反向搜索操作。
- 通过修改后的BWT编码流水线实现该算法,将运行长度优化集成在最终压缩之前。
- 该技术与后端压缩器无关,因此可与现有基于BWT的系统(如bzip2、bwz、bcm和wt)兼容。
实验结果
研究问题
- RQ1是否可以系统性地减少BWT中冗余的运行长度编码,而不损害其可逆性?
- RQ2利用对BWT结构的组合洞察,其编码大小最多可减少多少?
- RQ3所提出的tunneling技术是否保持了BWT在FM索引和压缩序列分析中的适用性?
- RQ4tunneling在不同数据类型和后端压缩器上的性能和压缩增益表现如何?
主要发现
- tunneling在多样化数据集上使基于BWT的压缩器编码大小平均减少8–16%。
- 在最优情况下,压缩大小减少可达33–57%,尤其在重复或结构化数据上,对bwz和wt等压缩器收益显著。
- 该技术保持了完全可逆性,并保留了BWT的结构特性,确保与FM索引和压缩模式匹配的兼容性。
- 使用tunneling的最佳压缩版本(bcm-tunneled)优于其他基于BWT的压缩器,并在重复数据上与xz性能相当。
- 该方法使编码时间和空间约增加一倍,但显著降低了解码时间和空间,为许多应用场景提供了有利的权衡。
- 压缩增益的模型拟合效果良好,异常值影响极小(净损失≤0.3%),且在不同压缩器和数据模型下结果均具鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。