Skip to main content
QUICK REVIEW

[論文レビュー] Practical and Optimal LSH for Angular Distance

Alexandr Andoni, Piotr Indyk|TU/e Research Portal|Sep 9, 2015
Advanced Image and Video Retrieval Techniques参考文献 26被引用数 212
ひとこと要約

本稿では、単位球面上の角距離に対する実用的で最適な局所性に敏感なハッシュ(LSH)スキームとして、クロス・ポリトープ LSH を提案する。この手法は、漸近的に最適なクエリ時間指数 ρ = 1/(2c²−1) を達成するとともに、実用的にハイパーサーフェス LSH を上回る性能を発揮する。高速回転と新規のマルチプローブ戦略を組み合わせることで、特に高次元スパース設定下において、実データおよび合成データで顕著な高速化を実現する。

ABSTRACT

We show the existence of a Locality-Sensitive Hashing (LSH) family for the angular distance that yields an approximate Near Neighbor Search algorithm with the asymptotically optimal running time exponent. Unlike earlier algorithms with this property (e.g., Spherical LSH [Andoni, Indyk, Nguyen, Razenshteyn 2014], [Andoni, Razenshteyn 2015]), our algorithm is also practical, improving upon the well-studied hyperplane LSH [Charikar, 2002] in practice. We also introduce a multiprobe version of this algorithm, and conduct experimental evaluation on real and synthetic data sets. We complement the above positive results with a fine-grained lower bound for the quality of any LSH family for angular distance. Our lower bound implies that the above LSH family exhibits a trade-off between evaluation time and quality that is close to optimal for a natural class of LSH functions.

研究の動機と目的

  • 角距離に対する理論的に最適な LSH スキームと実用的 nearest neighbor 検索性能のギャップを埋める。
  • コサイン類似度に対して最適な ρ = 1/(2c²−1) を達成しつつ、効率的に計算可能な局所性に敏感なハッシュ族を設計すること。
  • 理論的最適性を損なわずに検索効率を向上させるマルチプローブ拡張を考案すること。
  • メモリ制約下で、実世界および合成設定において新しい LSH スキームがハイパーサーフェス LSH を上回ることを実証的に検証すること。
  • 角距離に対する LSH の品質に関する細かく精緻な下界を確立し、提案手法の近似的最適性を示すこと。

提案手法

  • 単位ベクトルを対象として、ランダムに回転されたクロス・ポリトープ(ℓ₁ノルムの単位球)に基づく新しい LSH 家族を提案する。
  • 高速な回転をランダム直交行列を用いて実現し、ハッシュ評価の高速化を図り、実用的導入を可能にする。
  • 1つのテーブル内で複数の候補バケットを照会するマルチプローブ戦略を導入し、記憶容量を増加させずに再現率を向上させる。
  • 時間・空間・品質のトレードオフを滑らかにするために、最終的な k 個のハッシュ関数で部分的クロス・ポリトープを用いる。
  • 高次元スパースベクトル(例:tf-idf データ)の計算時間を短縮するために、特徴量ハッシュを適用する。
  • メモリ制約下での性能最適化のため、パラメータに対してグリッドサーチを実施(L=10)

実験結果

リサーチクエスチョン

  • RQ1角距離に対する局所性に敏感なハッシュスキームは、理論的最適性と実用的効率性の両方を達成できるか?
  • RQ2ハイパーサーフェス LSH よりも実用的に高速でありながら、Spherical LSH と同等の最適な ρ = 1/(2c²−1) を達成できる実用的 LSH 家族は存在するか?
  • RQ3クロス・ポリトープ LSH におけるマルチプローブ拡張は、検索性能の向上にどの程度効果的か?
  • RQ4角距離に対する LSH において、評価時間と品質の根本的トレードオフは何か? そして、そのトレードオフにどの程度近づけるか?
  • RQ5クロス・ポリトープ LSH は、実世界の高次元スパースデータにおいてハイパーサーフェス LSH を上回るか?

主な発見

  • n=2^28、d=128 のランダムデータにおいて、クロス・ポリトープ LSH はハイパーサーフェス LSH より 10.3× 速く、線形探索よりも最大 700× 速い。
  • SIFT データセット(n=10^6、d=128)では、クロス・ポリトープ LSH はハイパーサーフェス LSH より 1.2× 速く、最近接距離が小さいため改善が限定的である。
  • 高次元 tf-idf データセット(NYT と pubmed)では、効率的な特徴量ハッシュとマルチプローブ最適化のおかげで、それぞれ 3.4× および 4.0× の高速化を達成した。
  • メモリ制約下(L=10)で、クロス・ポリトープ LSH のマルチプローブ版は非マルチプローブ版の 13× 速く、ハイパーサーフェス LSH と同等の性能を発揮した。
  • 理論的解析により、クロス・ポリトープ LSH が最適な ρ = 1/(2c²−1) を達成しており、Spherical LSH と同一であることが確認された。さらに、細かく精緻な下界により、自然な LSH 関数のクラスにおいて近似的に最適であることが示された。
  • NYT と pubmed に対して、それぞれ 512 および 2048 次元で特徴量ハッシュを適用することで、スパースデータにおけるハッシング時間の顕著な短縮が達成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。