[论文解读] On Symmetric and Asymmetric LSHs for Inner Product Search
本文证明,在查询向量归一化且数据库向量有界的情况下,可以为最大内积搜索(MIPS)构建一种对称的局部敏感哈希(LSH)方案——simple-lsh,其性能优于Shrivastava和Li(2014a)提出的非对称LSH。关键贡献在于证明在此设定下非对称性并非必需,且simple-lsh为无参、通用适用,并在理论上和实验上均优于先前的非对称方法。
We consider the problem of designing locality sensitive hashes (LSH) for inner product similarity, and of the power of asymmetric hashes in this context. Shrivastava and Li argue that there is no symmetric LSH for the problem and propose an asymmetric LSH based on different mappings for query and database points. However, we show there does exist a simple symmetric LSH that enjoys stronger guarantees and better empirical performance than the asymmetric LSH they suggest. We also show a variant of the settings where asymmetry is in-fact needed, but there a different asymmetric LSH is required.
研究动机与目标
- 解决关于最大内积搜索(MIPS)中对称LSH与非对称LSH哪个更优的争议。
- 阐明在何种条件下对称或非对称LSH在内积相似性上具有理论可行性。
- 提出一种新的对称LSH(simple-lsh),其具有通用性、无参特性,并在理论和实践上均优于现有非对称LSH方法。
- 纠正一种误解:即在查询归一化且数据有界时,MIPS必须使用非对称性。
- 刻画非对称性真正必要的场景,并为此类情况提供正确的非对称LSH。
提出的方法
- 提出simple-lsh,一种通过保持内积和单位范数的嵌入方式映射向量的对称LSH。
- 使用变换 $ P(x) = [x; \sqrt{1 - \|x\|_2^2}; 0] $ 和 $ Q(y) = [y; 0; \sqrt{1 - \|y\|_2^2}] $,以确保 $ P(x)^\top Q(y) = x^\top y $ 且 $ \|P(x)\| = \|Q(y)\| = 1 $。
- 通过 $ h_a(z) = \text{sign}(a^\top z) $ 使用随机超平面生成二进制哈希码。
- 证明碰撞概率 $ \mathbb{P}[h_a(P(x)) = h_a(Q(y))] = 1 - \frac{\cos^{-1}(x^\top y)}{\pi} $ 在内积上单调,满足ALS H的性质。
- 分析现有非对称LSH(l2-alsh(sl) 和 sign-alsh(sl))的理论极限,表明它们在有界范数下并非通用ALS H。
- 证明在 $ \mathbb{R}^d $ 全空间上既不存在对称LSH也不存在非对称LSH,但在有界且归一化设定下两者均可实现。
实验结果
研究问题
- RQ1当查询向量归一化且数据库向量有界时,是否可能为内积相似性构建对称LSH?
- RQ2在查询归一化且数据有界的MIPS标准设定下,非对称性是否在理论上或实践上具有优势?
- RQ3Shrivastava和Li(2014a)提出的非对称LSH是否具有通用适用性,还是需要针对具体问题调参?
- RQ4在何种条件下非对称LSH对内积搜索真正必要?
- RQ5能否为MIPS构建一种对称、无参且通用适用的LSH?
主要发现
- 当查询归一化且数据库向量有界时,存在一种对称LSH——simple-lsh,且其具有通用适用性,这与‘非对称性为必需’的断言相矛盾。
- simple-lsh为无参方法,在理论保证和实验性能上均优于Shrivastava和Li(2014a)提出的非对称方法l2-alsh(sl)和sign-alsh(sl)。
- l2-alsh(sl)和sign-alsh(sl)并非通用ALS H:即使在归一化和有界设定下,它们也无法满足所有 $ S, c $ 的碰撞概率条件。
- 由于内积在 $ \mathbb{R}^d $ 上无界,因此在全空间 $ \mathbb{R}^d $ 上既不存在对称LSH也不存在非对称LSH。
- 当查询和数据向量均有界但查询未归一化时,对称LSH不可能实现,但可构建一种通用的非对称LSH(simple-alsh)。
- 本文确立了非对称性仅在有界但未归一化设定下真正必要,并为此类情况提供了正确的非对称LSH。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。