[论文解读] Encoding and Decoding Algorithms of ANS Variants and Evaluation of Their Average Code Lengths
本文对 ANS 变体——ABS、rANS 和 tANS 的编码与解码算法提供了全面且易于理解的解释,同时推导出其平均码长的紧致信息论上界。结果表明,当使用最优概率分布时,tANS 的压缩性能接近最优,每符号的损失小于 1 比特,因此在实际无损压缩系统中具有极高的效率。
Asymmetric Numeral Systems (ANS) proposed by Jarek Duda are high-performance distortionless data compression schemes that can achieve almost the same compression performance as arithmetic codes with less arithmetic operations than arithmetic coding. The ANS is widely used in various practical systems like Facebook, Apple, Google, Dropbox, Microsoft, and Pixar, due to their high performance, but many researchers still lack much knowledge about the ANS. This paper thoroughly explains the encoding and decoding algorithms of the ANS, and theoretically analyzes the average code length achievable by the ANS.
研究动机与目标
- 提供 ANS 编码与解码算法的清晰、详细解释,这些算法通常缺乏文档记录且难以理解。
- 弥补 ANS 缺乏理论性能评估的不足,特别是关于平均码长的分析,尽管其在 Zstandard、LZFSE 和谷歌压缩工具等系统中已广泛应用。
- 推导 ANS 变体可实现的平均码长的严格信息论上界,特别关注 tANS 与其理想性能的偏差。
- 阐明 ANS 与算术编码之间的关系,强调 ANS 如何通过整数运算和逆序处理,以更少的算术运算实现相似的压缩效率。
提出的方法
- 为三种 ANS 变体——ABS(非对称二进制系统)、rANS(区间变体)和 tANS(查表变体)——提出并形式化编码与解码函数,全部基于整数运算。
- 引入一种新颖的信息论分析方法,以熵 H(p) 和相对熵 D(p∥q) 作为关键组成部分,对每符号的期望平均码长进行上界估计。
- 推导出 tANS 的严格上界:L ≤ H(p) + D(p∥q) + α/N,其中 α 为常数,N 为表大小,表明其性能接近最优。
- 通过比较实值理想码字长度与基于整数的实现,分析 tANS 中因量化导致的平均码长损失。
- 利用詹森不等式和概率分布,对实际码长与理想码长之间的偏差进行界定,尤其关注 tANS 情况。
- 证明:当映射函数 C̃ 以最优方式构造时,分布 Q(x) 可紧密逼近理想分布 Q*(x) = (lg x + 1)/x,从而最小化性能损失。
实验结果
研究问题
- RQ1ABS、rANS 和 tANS 的编码与解码算法在实际中如何工作,其关键差异是什么?
- RQ2ANS 变体可实现的平均码长的理论上限是什么?它们能多接近信息论极限?
- RQ3与理想实值码字系统相比,tANS 的性能损失是多少?如何通过合理设计最小化该损失?
- RQ4tANS 的平均码长能否以熵和相对熵表示?表大小 N 在该上界中起什么作用?
- RQ5概率分布和映射函数的选择如何影响 tANS 的压缩效率?
主要发现
- tANS 的平均码长被界定为 H(p) + D(p∥q) + α/N,其中 α 为常数,表明性能损失随表大小增大而减小。
- 与理想情况相比,平均码长的理论损失严格小于每符号 1 比特,如不等式 L − L* < 1 所示。
- 当概率分布 q(s) = N/Ns 与源分布 p(s) 匹配时,可构造映射函数 C̃,使得 Q(x) = Q*(x) + O(1/N²),实现接近最优的性能。
- tANS 的理想平稳分布为 Q*(x) = (lg x + 1)/x,实现该分布可最小化平均码长。
- 分析结果证实,tANS 可实现接近熵极限的压缩性能,仅因整数量化导致微小且有界的损失。
- 本文确立了即使使用整数运算,ANS 也能在计算操作更少的情况下,实现与算术编码相当的压缩效率,因此适用于高性能系统。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。