QUICK REVIEW

[论文解读] Norm-Ranging LSH for Maximum Inner Product Search

Xiao Yan, Jinfeng Li|arXiv (Cornell University)|Sep 24, 2018

Advanced Image and Video Retrieval Techniques被引用 23

一句话总结

本文提出了一种名为 Norm-Ranging LSH 的新型哈希方法，用于最大内积搜索（MIPS），通过基于 2-范数百分位数将数据集划分为子数据集，以缓解真实数据集中长尾范数分布导致的性能下降问题。通过对每个子数据集独立应用 Simple-LSH 并结合局部归一化，该方法实现了比 Simple-LSH 更低的查询时间复杂度，且探测次数减少了一个数量级，显著加速了 MIPS 工作负载。

ABSTRACT

Neyshabur and Srebro proposed Simple-LSH, which is the state-of-the-art hashing method for maximum inner product search (MIPS) with performance guarantee. We found that the performance of Simple-LSH, in both theory and practice, suffers from long tails in the 2-norm distribution of real datasets. We propose Norm-ranging LSH, which addresses the excessive normalization problem caused by long tails in Simple-LSH by partitioning a dataset into multiple sub-datasets and building a hash index for each sub-dataset independently. We prove that Norm-ranging LSH has lower query time complexity than Simple-LSH. We also show that the idea of partitioning the dataset can improve other hashing based methods for MIPS. To support efficient query processing on the hash indexes of the sub-datasets, a novel similarity metric is formulated. Experiments show that Norm-ranging LSH achieves an order of magnitude speedup over Simple-LSH for the same recall, thus significantly benefiting applications that involve MIPS.

研究动机与目标

为解决真实数据集中因 2-范数分布呈现长尾特性而导致 Simple-LSH 在最大内积搜索（MIPS）中性能下降的问题。
通过避免过度的全局归一化以降低查询时间复杂度，从而保护内积大小的准确性。
设计一种鲁棒且无需调参的哈希框架，在保持高召回率的同时最小化探测项目数。
将该方法推广至其他基于 LSH 的 MIPS 方法（如 L2-ALSH），通过数据集划分实现优化。

提出的方法

根据 2-范数分布的百分位数将数据集划分为子数据集，以将具有相似幅度的项目分组。
对每个子数据集独立应用 Simple-LSH，并使用每个子数据集中最大的 2-范数进行归一化。
引入一种新颖的相似性度量，用于定义来自不同子数据集的桶之间的探测顺序，从而实现高效的查询处理。
在温和条件下证明，Norm-Ranging LSH 的查询时间复杂度低于 Simple-LSH，这是由于局部归一化带来了更高的碰撞概率。
通过数据集划分将该框架扩展至 L2-ALSH，推导出适用于各子数据集的 ρ 值，其值小于全局 ρ。
使用局部归一化因子对每个子数据集的参数进行优化，从而减少对过于保守的全局边界的依赖。

实验结果

研究问题

RQ1真实数据集中 2-范数的长尾分布是否会导致 Simple-LSH 在 MIPS 中性能下降？
RQ2基于 2-范数百分位数划分数据集是否能降低 Simple-LSH 的查询时间复杂度？
RQ3Norm-Ranging LSH 在相同召回率下是否能实现比 Simple-LSH 和 L2-ALSH 更低的探测次数？
RQ4Norm-Ranging LSH 的性能改进是否对不同的划分策略（如百分位数划分与均匀划分）具有鲁棒性？
RQ5数据集划分策略是否可推广至其他基于 LSH 的 MIPS 算法（如 L2-ALSH）？

主要发现

在三个真实数据集上，Norm-Ranging LSH 在相同召回率下将探测次数减少了整整一个数量级，相比 Simple-LSH。
在温和条件下，该方法可证明实现比 Simple-LSH 更低的查询时间复杂度，这是由于局部归一化带来了更高的碰撞概率。
随着子数据集数量的增加，性能持续提升，但当数量足够大时趋于稳定，表明存在边际收益递减现象。
均匀划分 2-范数的表现略优于百分位数划分，表明只要相似范数被分组，该方法对划分策略具有鲁棒性。
该数据集划分方法可推广至 L2-ALSH，使 ρ 值更小，且查询时间复杂度低于原始方法。
实验结果证实，Norm-Ranging LSH 通过显著减少每次查询需检查的项目数，大幅加速了基于 MIPS 的应用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。