Skip to main content
QUICK REVIEW

[论文解读] Norm-Ranging LSH for Maximum Inner Product Search

Xiao Yan, Jinfeng Li|arXiv (Cornell University)|Sep 24, 2018
Advanced Image and Video Retrieval Techniques被引用 23
一句话总结

本文提出了一种名为 Norm-Ranging LSH 的新型哈希方法,用于最大内积搜索(MIPS),通过基于 2-范数百分位数将数据集划分为子数据集,以缓解真实数据集中长尾范数分布导致的性能下降问题。通过对每个子数据集独立应用 Simple-LSH 并结合局部归一化,该方法实现了比 Simple-LSH 更低的查询时间复杂度,且探测次数减少了一个数量级,显著加速了 MIPS 工作负载。

ABSTRACT

Neyshabur and Srebro proposed Simple-LSH, which is the state-of-the-art hashing method for maximum inner product search (MIPS) with performance guarantee. We found that the performance of Simple-LSH, in both theory and practice, suffers from long tails in the 2-norm distribution of real datasets. We propose Norm-ranging LSH, which addresses the excessive normalization problem caused by long tails in Simple-LSH by partitioning a dataset into multiple sub-datasets and building a hash index for each sub-dataset independently. We prove that Norm-ranging LSH has lower query time complexity than Simple-LSH. We also show that the idea of partitioning the dataset can improve other hashing based methods for MIPS. To support efficient query processing on the hash indexes of the sub-datasets, a novel similarity metric is formulated. Experiments show that Norm-ranging LSH achieves an order of magnitude speedup over Simple-LSH for the same recall, thus significantly benefiting applications that involve MIPS.

研究动机与目标

  • 为解决真实数据集中因 2-范数分布呈现长尾特性而导致 Simple-LSH 在最大内积搜索(MIPS)中性能下降的问题。
  • 通过避免过度的全局归一化以降低查询时间复杂度,从而保护内积大小的准确性。
  • 设计一种鲁棒且无需调参的哈希框架,在保持高召回率的同时最小化探测项目数。
  • 将该方法推广至其他基于 LSH 的 MIPS 方法(如 L2-ALSH),通过数据集划分实现优化。

提出的方法

  • 根据 2-范数分布的百分位数将数据集划分为子数据集,以将具有相似幅度的项目分组。
  • 对每个子数据集独立应用 Simple-LSH,并使用每个子数据集中最大的 2-范数进行归一化。
  • 引入一种新颖的相似性度量,用于定义来自不同子数据集的桶之间的探测顺序,从而实现高效的查询处理。
  • 在温和条件下证明,Norm-Ranging LSH 的查询时间复杂度低于 Simple-LSH,这是由于局部归一化带来了更高的碰撞概率。
  • 通过数据集划分将该框架扩展至 L2-ALSH,推导出适用于各子数据集的 ρ 值,其值小于全局 ρ。
  • 使用局部归一化因子对每个子数据集的参数进行优化,从而减少对过于保守的全局边界的依赖。

实验结果

研究问题

  • RQ1真实数据集中 2-范数的长尾分布是否会导致 Simple-LSH 在 MIPS 中性能下降?
  • RQ2基于 2-范数百分位数划分数据集是否能降低 Simple-LSH 的查询时间复杂度?
  • RQ3Norm-Ranging LSH 在相同召回率下是否能实现比 Simple-LSH 和 L2-ALSH 更低的探测次数?
  • RQ4Norm-Ranging LSH 的性能改进是否对不同的划分策略(如百分位数划分与均匀划分)具有鲁棒性?
  • RQ5数据集划分策略是否可推广至其他基于 LSH 的 MIPS 算法(如 L2-ALSH)?

主要发现

  • 在三个真实数据集上,Norm-Ranging LSH 在相同召回率下将探测次数减少了整整一个数量级,相比 Simple-LSH。
  • 在温和条件下,该方法可证明实现比 Simple-LSH 更低的查询时间复杂度,这是由于局部归一化带来了更高的碰撞概率。
  • 随着子数据集数量的增加,性能持续提升,但当数量足够大时趋于稳定,表明存在边际收益递减现象。
  • 均匀划分 2-范数的表现略优于百分位数划分,表明只要相似范数被分组,该方法对划分策略具有鲁棒性。
  • 该数据集划分方法可推广至 L2-ALSH,使 ρ 值更小,且查询时间复杂度低于原始方法。
  • 实验结果证实,Norm-Ranging LSH 通过显著减少每次查询需检查的项目数,大幅加速了基于 MIPS 的应用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。