Skip to main content
QUICK REVIEW

[論文レビュー] Consistent Weighted Sampling Made Fast, Small, and Easy

Bernhard Haeupler, Mark S. Manasse|arXiv (Cornell University)|Oct 16, 2014
Advanced Image and Video Retrieval Techniques参考文献 22被引用数 27
ひとこと要約

本稿では、確率的ラウンディングを用いて重み付き集合を調整可能なサイズの重みなし集合に縮小することで、重み付きJaccard類似度推定のための高速でコンactかつ高精度な手法を提示する。この手法により、要素1つあたり定数個のハッシュ評価で近似的に独立なサンプルを1回の走査で得られるようになり、従来手法と比較して最大2桁の高速化を達成しつつ、誤差は無視できるほど小さく、精度の損失も最小限に抑えられる。

ABSTRACT

Document sketching using Jaccard similarity has been a workable effective technique in reducing near-duplicates in Web page and image search results, and has also proven useful in file system synchronization, compression and learning applications. Min-wise sampling can be used to derive an unbiased estimator for Jaccard similarity and taking a few hundred independent consistent samples leads to compact sketches which provide good estimates of pairwise-similarity. Subsequent works extended this technique to weighted sets and show how to produce samples with only a constant number of hash evaluations for any element, independent of its weight. Another improvement by Li et al. shows how to speedup sketch computations by computing many (near-)independent samples in one shot. Unfortunately this latter improvement works only for the unweighted case. In this paper we give a simple, fast and accurate procedure which reduces weighted sets to unweighted sets with small impact on the Jaccard similarity. This leads to compact sketches consisting of many (near-)independent weighted samples which can be computed with just a small constant number of hash function evaluations per weighted element. The size of the produced unweighted set is furthermore a tunable parameter which enables us to run the unweighted scheme of Li et al. in the regime where it is most efficient. Even when the sets involved are unweighted, our approach gives a simple solution to the densification problem that other works attempted to address. Unlike previously known schemes, ours does not result in an unbiased estimator. However, we prove that the bias introduced by our reduction is negligible and that the standard deviation is comparable to the unweighted case. We also empirically evaluate our scheme and show that it gives significant gains in computational efficiency, without any measurable loss in accuracy.

研究の動機と目的

  • 要素の重みに比例してスケーリングが悪化する既存の重み付きサンプリング手法の計算非効率性を解消すること。
  • 重み付き集合に対して、一回の走査で近似的に独立なサンプルを高速に計算可能にする仕組みを提供すること。これにより、重みなし手法と同等の性能を達成すること。
  • 重み付き集合を確率的ラウンディングにより重みなし集合に縮小しながら、Jaccard類似度の推定に顕著なバイアスを生じさせず、精度を保持すること。
  • 後続のスケッチ処理における最適なパフォーマンスを実現するため、得られる重みなし集合のサイズを調整可能なパラメータで制御できること。
  • 高類似度ケースにおいて、測定可能な精度損失なしに顕著な高速化を達成できることを示すこと。

提案手法

  • 2つ以上のスケールを用いた確率的ラウンディングにより、重み付き集合を重みなし集合に縮小し、効率的なサンプリングを可能にする。
  • Liら[17]が提唱した「1つの置換による手法」を応用し、要素1つあたり定数個のハッシュ評価で、一度の走査で数百個の近似的に独立なサンプルを計算する。
  • 得られる重みなし集合のサイズを制御する調整可能なパラメータを導入し、以降のスケッチ処理における効率性を最適化する。
  • ユーザーが定義したしきい値α未満の類似度では類似度推定をスキップする機構を導入し、実用的な効率性を向上させる。
  • ラウンディングによって生じるバイアスが無視できるほど小さく、推定誤差の尾部確率(tail bounds)が重みなしケースと同等であることを証明する。
  • 実験的に、Ioffeのアルゴリズムおよび確率的ラウンディングを比較し、さまざまな類似度レベルで絶対誤差と標準偏差を測定する。

実験結果

リサーチクエスチョン

  • RQ1重み付きJaccard類似度推定を、高い正確性を維持しつつ著しく高速化できるか?
  • RQ2重み付き集合を重みなし集合に確率的ラウンディングすることで、Jaccard類似度推定に顕著なバイアスが生じるか?
  • RQ3重みなしスケッチにおける「1つの置換によるサンプリング」手法を、集合の縮小を介して重み付き集合に適応可能か?
  • RQ4縮小された重みなし集合のサイズを調整可能にすることで、計算効率と推定品質にどのような影響を与えるか?
  • RQ5高類似度状況下で、計算速度と推定正確性のトレードオフはどのようなものか?

主な発見

  • 提案手法は、従来の重み付きサンプリング手法と比較して、最大2桁の高速化を達成した。
  • 高類似度値(例:0.96)において、平均絶対誤差はIoffeのアルゴリズムと同等であり、0.01未満に抑えられた。
  • Jaccard類似度が0.8〜0.9の範囲では、平均絶対誤差の観点で提案手法がIoffeのアルゴリズムをわずかに上回った。
  • ほとんどの類似度レベルにおいて、推定誤差の標準偏差はIoffeの手法と同等またはそれ以下であり、安定した性能を示した。
  • 確率的ラウンディングによって生じるバイアスは無視できるほど小さく、尾部確率(tail bounds)も重みなしケースと同等のままであった。
  • 低類似度値(例:0.4)でも、絶対誤差は0.035未満に保たれ、平均で約4つのバインの過剰不一致に相当した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。