Skip to main content
QUICK REVIEW

[论文解读] Sum Estimation via Vector Similarity Search

Stephen Mussmann, Raje, Mehul Smriti|arXiv (Cornell University)|Jan 16, 2026
Advanced Image and Video Retrieval Techniques被引用 0
一句话总结

本文提出一种算法,利用指数层级数据结构的 O(log n) 顶部元素来估计向量基数据集的和,得到一个无偏估计量,并提供高概率误差界限,证明相较于先前的 O(sqrt(n)) 方法更高效。

ABSTRACT

Semantic embeddings to represent objects such as image, text and audio are widely used in machine learning and have spurred the development of vector similarity search methods for retrieving semantically related objects. In this work, we study the sibling task of estimating a sum over all objects in a set, such as the kernel density estimate (KDE) and the normalizing constant for softmax distributions. While existing solutions provably reduce the sum estimation task to acquiring $\mathcal{O}(\sqrt{n})$ most similar vectors, where $n$ is the number of objects, we introduce a novel algorithm that only requires $\mathcal{O}(\log(n))$ most similar vectors. Our approach randomly assigns objects to levels with exponentially-decaying probabilities and constructs a vector similarity search data structure for each level. With the top-$k$ objects from each level, we propose an unbiased estimate of the sum and prove a high-probability relative error bound. We run experiments on OpenImages and Amazon Reviews with a vector similar search implementation to show that our method can achieve lower error using less computational time than existing reductions. We show results on applications in estimating densities, computing softmax denominators, and counting the number of vectors within a ball.

研究动机与目标

  • 激励并形式化通过向量相似性搜索对和的估计问题,超越精确求和的局限。
  • 提出一个基于层级的数据结构方法,将检索到的元素数量降至 O(log n)。
  • 给出和的无偏估计量并证明高概率相对误差界限。
  • 在实际数据集上展示该方法在 KDE、softmax 分母以及球内计数任务的应用。
  • 研究实际性能并探讨与现有向量搜索系统的集成。

提出的方法

  • 假设具备一个最大化查询(maximization oracle)能返回 f_q 在 X 上的 Top_k,并为每一层构建一个指数衰减的层级分配数据结构(ell(x) ~ Geometric with p=1/2)。
  • 将 U 定义为来自所有层的 Top_k 的并集,并使用 U 中的顶端元素形成和 F = sum_x f_q(x) 的无偏估计量 E。
  • 计算无偏估计量 E = sum_{x in U} f_q(x) / p_i,其中 p_i 是随层级填充而更新的层级相关概率(C_ell = k)。
  • 给出一个线性时间的简单过程,在给定 U 和层计数的情况下计算 E。
  • 使用鞅 Bernstein 不等式和 Chernoff 型引理证明高概率相对误差界限。
  • 可选地应用一个控制变差以通过常数 c 调整来降低方差。

实验结果

研究问题

  • RQ1能否仅通过从最大化查询中检索的 O(log n) 个元素来估计数据集 X 上非负函数 f_q 的和?
  • RQ2这样的 O(log n) 基于层级的估计器的无偏估计保证与高概率相对误差界限是什么?
  • RQ3与基线相比,该方法在 KDE、softmax 分母和球内计数任务上的表现如何?
  • RQ4该框架能否与现有向量搜索系统(如 HNSW)集成以提升实际运行时间?
  • RQ5在将向量搜索视为黑箱最大化查询时,存在的局限性与实际考虑因素有哪些?

主要发现

  • 所提估计量使用来自指数采样层的 Top_k 来形成和的无偏估计。
  • 通过调节 k 和 delta,该方法实现了 O(sqrt(log(1/delta)/k)) 的高概率相对误差。
  • 在 Open Images 与 Amazon Reviews 的实验中,该方法在 KDE、softmax 与计数任务上显示出比现有化简方法更低的误差与更快的运行时间。
  • 该方法保持无偏性并通过鞅为基础的界限提供显式的方差控制,以及潜在的控制变差。
  • 工作讨论了与 HNSW 的集成机会,并承认基于查询的 oracle 在运行时保证方面的局限性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。