QUICK REVIEW

[論文レビュー] Optimal Densification for Fast and Accurate Minwise Hashing

Anshumali Shrivastava|arXiv (Cornell University)|Mar 14, 2017

Advanced Image and Video Retrieval Techniques参考文献 24被引用数 27

ひとこと要約

この論文は、通常のminwiseハッシングと同等の分散と衝突確率を達成しながら、$O(d + k)$の低コストな計算量を維持する最適な密化スキームを提案する。従来の密化手法に比べて、特にスパースデータにおいて顕著に精度が向上する。この手法は、分散バイアスを排除するために、巧みに調整された2-一様ハッシュ関数を用いる。

ABSTRACT

Minwise hashing is a fundamental and one of the most successful hashing algorithm in the literature. Recent advances based on the idea of densification~\cite{Proc:OneHashLSH_ICML14,Proc:Shrivastava_UAI14} have shown that it is possible to compute $k$ minwise hashes, of a vector with $d$ nonzeros, in mere $(d + k)$ computations, a significant improvement over the classical $O(dk)$. These advances have led to an algorithmic improvement in the query complexity of traditional indexing algorithms based on minwise hashing. Unfortunately, the variance of the current densification techniques is unnecessarily high, which leads to significantly poor accuracy compared to vanilla minwise hashing, especially when the data is sparse. In this paper, we provide a novel densification scheme which relies on carefully tailored 2-universal hashes. We show that the proposed scheme is variance-optimal, and without losing the runtime efficiency, it is significantly more accurate than existing densification techniques. As a result, we obtain a significantly efficient hashing scheme which has the same variance and collision probability as minwise hashing. Experimental evaluations on real sparse and high-dimensional datasets validate our claims. We believe that given the significant advantages, our method will replace minwise hashing implementations in practice.

研究の動機と目的

従来の密化手法における高い分散が、計算時間の改善にもかかわらず精度を低下させることを是正する。
通常のminwiseハッシングと同等の理論的分散を達成しながら、計算効率を保つ密化スキームを開発する。
密化スケッチにおける分散に起因する精度の低下を排除することで、大規模システムにおけるminwiseハッシングの実用的導入を可能にする。
提案手法が多様なスパースで高次元のデータセットにおいて、分散最適な性能を達成していることを検証する。

提案手法

2-一様ハッシュ関数を用いた新しい密化スキームを導入し、分散最適性を保証する。
各ハッシュが非ゼロ要素の単一パス走査で$O(d + k)$時間で計算可能な、変更された1パーミュテーションハッシングフレームワークを採用する。
理論的分散式（式19）を導出し、実験結果と一致させることで、このスキームが分散最適であることを証明する。
高価な順列とモジュロ演算を回避するランダム化ハッシュ戦略を採用し、高速な計算を実現する。
最小限のバイアスと、ジャカード類似度に等しい最適な衝突確率を持つ$k$個のminwiseハッシュを生成する。
2段階のハッシュ処理を採用：まず、ベースハッシュが非ゼロインデックスをマッピングし、次に、二次的ハッシュがバケット間で均等に分布するように保証する。

実験結果

リサーチクエスチョン

RQ1通常のminwiseハッシングと同等の分散を達成しながら$O(d + k)$実行時間を持つ密化スキームを設計できるか？
RQ2特にスパースデータにおいて、提案手法が従来の密化手法と比べて顕著に分散を低減できるか？
RQ3提案されたスキームの理論的分散が、実世界のデータセットにおいて実証的に検証可能か？
RQ4提案手法は、従来のminwiseハッシングよりも高速であり、かつ従来の密化手法よりも精度が高いか？

主な発見

提案された最適な密化スキームは、通常のminwiseハッシングと区別できない分散を達成し、MSE値が理論的上限$\frac{R(1-R)}{k}$に一致する。
RCV1 や News20 のようなスパースデータセットでは、$k = 2^{14}$において、従来の密化手法と比較してMSEが最大2〜3桁減少する。
この手法は$O(d + k)$の実行時間維持を保ち、実データセットにおいて$k = 300$のとき、従来のminwiseハッシングと比べて10〜18倍高速である。
理論的分散予測値と実験的推定値がよく一致しており、導出された分散式（式19）の正しさが検証された。
従来の密化手法は、$k$が増加してもゼロに収束しない非ゼロの極限分散を示しており、それらが非最適であることが確認された。
最適な密化により、1パーミュテーションハッシングにおける空のバケット数が顕著に減少し、$k = 300$で90％以上のバケットが埋まるようになる。これにより、効果的なインデクシングとカーネル学習が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。