QUICK REVIEW

[論文レビュー] Norm-Ranging LSH for Maximum Inner Product Search

Xiao Yan, Jinfeng Li|arXiv (Cornell University)|Sep 24, 2018

Advanced Image and Video Retrieval Techniques被引用数 23

ひとこと要約

本稿では、最大内積探索（MIPS）のための新しいハッシング手法であるNorm-Ranging LSHを提案する。この手法は、2-normの百分位数に基づいてデータセットを部分データセットに分割することで、長尾型の2-norm分布に起因する性能劣化を軽減する。各部分データセットに対して局所的な正規化を用いてSimple-LSHを独立して適用することで、query時間計算量を理論的に低く抑え、Simple-LSHと比較してプローブ回数を10倍削減し、MIPSワークロードの大幅な高速化を達成する。

ABSTRACT

Neyshabur and Srebro proposed Simple-LSH, which is the state-of-the-art hashing method for maximum inner product search (MIPS) with performance guarantee. We found that the performance of Simple-LSH, in both theory and practice, suffers from long tails in the 2-norm distribution of real datasets. We propose Norm-ranging LSH, which addresses the excessive normalization problem caused by long tails in Simple-LSH by partitioning a dataset into multiple sub-datasets and building a hash index for each sub-dataset independently. We prove that Norm-ranging LSH has lower query time complexity than Simple-LSH. We also show that the idea of partitioning the dataset can improve other hashing based methods for MIPS. To support efficient query processing on the hash indexes of the sub-datasets, a novel similarity metric is formulated. Experiments show that Norm-ranging LSH achieves an order of magnitude speedup over Simple-LSH for the same recall, thus significantly benefiting applications that involve MIPS.

研究の動機と目的

実際のデータセットに見られる長尾型の2-norm分布が、Maximum Inner Product Search (MIPS) におけるSimple-LSHの性能を劣化させることを是正すること。
内積の大きさを歪める過剰なグローバル正規化を避けることで、MIPSにおけるquery時間計算量を低減すること。
高い再現率を維持しながらプローブ対象のアイテム数を最小限に抑える、パラメータフリーの堅牢なハッシングフレームワークを設計すること。
L2-ALSHなどの他のLSHベースのMIPS手法に対しても一般化できるように、データセットの分割戦略を適用すること。

提案手法

2-norm分布の百分位数に基づいてデータセットを部分データセットに分割し、類似した大きさのアイテムをグループ化する。
各部分データセットに対して、その内部で最大の2-normを用いて正規化を行い、Simple-LSHを独立して適用する。
異なる部分データセットからのバケット間でプローブ順序を定義するための新しい類似度尺度を導入し、効率的なクエリ処理を可能にする。
やや緩い条件下でも、局所的正規化によるコリジョン確率の向上のおかげで、Norm-Ranging LSHがSimple-LSHよりも低いquery時間計算量を達成できることを証明する。
データセットの分割を適用することで、L2-ALSHに対してもフレームワークを拡張し、グローバルなρより小さい部分データセット固有のρ値を導出する。
各部分データセットごとに局所的正規化係数を最適化することで、過剰に慎重なグローバルな境界値の必要性を低減する。

実験結果

リサーチクエスチョン

RQ1実データセットにおける2-normの長尾型分布が、MIPSにおけるSimple-LSHの性能を劣化させるか？
RQ22-normの百分位数に基づいてデータセットを分割することで、Simple-LSHのquery時間計算量を低減できるか？
RQ3同じ再現率において、Norm-Ranging LSHはSimple-LSHおよびL2-ALSHよりも低いプローブ回数を達成するか？
RQ4異なる分割戦略（例：百分位数 vs. 等間隔）に対して、Norm-Ranging LSHの性能向上が頑健であるか？
RQ5データセットの分割戦略は、L2-ALSHなどの他のLSHベースのMIPSアルゴリズムの性能向上にも一般化可能か？

主な発見

3つの実データセットにおいて、同じ再現率でNorm-Ranging LSHはSimple-LSHと比較してプローブ回数を10倍削減した。
やや緩い条件下でも、局所的正規化によるコリジョン確率の向上のおかげで、Norm-Ranging LSHはSimple-LSHよりも理論的に低いquery時間計算量を達成した。
部分データセットの数が増えるほど性能が向上するが、十分に大きな数になると安定化し、限界効果が現れる。
等間隔の2-norm分割は百分位数ベースの分割よりわずかに優れた性能を示し、同程度の大きさのアイテムがグループ化されていれば、分割戦略の選択に頑健であることが示された。
データセットの分割戦略はL2-ALSHに対しても一般化可能であり、より小さなρ値を導出し、元の手法よりも低いquery時間計算量を達成した。
実験結果から、Norm-Ranging LSHがクエリあたりの検査対象アイテム数を削減することで、MIPSベースのアプリケーションの大幅な高速化が実現されることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。