[论文解读] Embedding Compression via Spherical Coordinates
论文提出一种无损能力、无需训练的单位范数嵌入压缩方法,通过转换到球坐标,在重建误差低于1e-7的情况下实现约1.5×压缩,并能够直接从压缩的角度进行相似度计算。
We present an $ε$-bounded compression method for unit-norm embeddings that achieves 1.5$ imes$ compression, 25% better than the best prior lossless method. The method exploits that spherical coordinates of high-dimensional unit vectors concentrate around $π/2$, causing IEEE 754 exponents to collapse to a single value and high-order mantissa bits to become predictable, enabling entropy coding of both. Reconstruction error is bounded by float32 machine epsilon ($1.19 imes 10^{-7}$), making reconstructed values indistinguishable from originals at float32 precision. Evaluation across 26 configurations spanning text, image, and multi-vector embeddings confirms consistent compression improvement with zero measurable retrieval degradation on BEIR benchmarks.
研究动机与目标
- 在检索与多模态流水线中,激发对高保真、存储高效的嵌入存储需求。
- 提出一种利用球坐标的单位范数嵌入的无损能力压缩方法。
- 在无需训练的情况下,量化文本、图像和多向量嵌入的压缩增益。
- 证明重建误差始终低于float32机器 epsilon,并且可以直接从压缩角度计算余弦相似度。
提出的方法
- 将笛卡尔嵌入向量转换为单位范数嵌入的球坐标。
- 通过转置、按字节打乱指数和尾数字节并应用无损压缩器(zstd)进行分组和熵编码。
- 在解压缩过程中通过向后递归公式直接从球面角度计算余弦相似度。
- 给出形式上的界限,显示指数的集中性和有界的重建误差。
- 在涵盖文本、图像和多向量嵌入的26种配置下进行评估,以证明总体收益的一致性。

实验结果
研究问题
- RQ1单位范数嵌入的球坐标表示是否能够在不训练的情况下实现无损-like 压缩?
- RQ2通过利用球坐标中指数的集中性和尾数的可预测性,可以实现多少压缩增益?
- RQ3该方法是否保持检索质量,并且能否直接从压缩表示中计算相似度?
- RQ4该方法在文本、图像和多向量等模态及不同维度下是否鲁棒?
主要发现
- 在26种嵌入配置中实现约1.5×的压缩。
- IEEE 754 高维嵌入中指数集中在127附近,使指数熵从约2.6比特/字节降至约0.03比特/字节。
- 高阶尾数位也变得更可预测,带来额外的压缩收益。
- 重建误差被限定在小于1e-7(低于float32机器 epsilon),保持检索质量。
- 对于100万文档的ColBERT索引,存储从240 GB降至160 GB。
- 不需要训练,方法适用于文本、图像和多向量嵌入。
- 吞吐量也较高(例如在zstd等级1时编码近487 MB/s、解码近605 MB/s)。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。