Skip to main content
QUICK REVIEW

[論文レビュー] Dimension Independent Similarity Computation

Reza Bosagh Zadeh, Ashish Goel|arXiv (Cornell University)|Jun 11, 2012
Stochastic Gradient Optimization Techniques参考文献 29被引用数 52
ひとこと要約

本稿では、MapReduceにおける効率的なサンプリングを用いて、高次元スパースベクトル間のペairワイズ類似度(コサイン、ジャコード、ディスカート、オーバーラップ)を次元Nに依存しないフレームワークであるDISCOを提案する。シャッフルサイズとリダースキーの複雑さが次元Nに依存しないため、通信コストを最大99.8%まで削減しつつ、類似度が高いペアの推定精度を高く保つ。Twitterの生産環境データを用いた大規模な検証で実用性が裏付けられている。

ABSTRACT

We present a suite of algorithms for Dimension Independent Similarity Computation (DISCO) to compute all pairwise similarities between very high dimensional sparse vectors. All of our results are provably independent of dimension, meaning apart from the initial cost of trivially reading in the data, all subsequent operations are independent of the dimension, thus the dimension can be very large. We study Cosine, Dice, Overlap, and the Jaccard similarity measures. For Jaccard similiarity we include an improved version of MinHash. Our results are geared toward the MapReduce framework. We empirically validate our theorems at large scale using data from the social networking site Twitter. At time of writing, our algorithms are live in production at twitter.com.

研究の動機と目的

  • 高次元スパースベクトル空間におけるすべてのペアワイズ類似度計算のスケーラビリティ課題に対処すること。従来の手法は次元Nに伴い性能が著しく低下する。
  • 次元Nに依存しない計算複雑性を達成するサンプリングベースのフレームワークを設計し、大規模データセットにおける処理を現実可能にする。
  • 協調フィルタリングやキーワード拡張などの応用において重要な、類似度が高いペアに対する高い精度を保証するため、次元に依存しない誤差バウンドを活用すること。
  • MapReduceのような分散システムで実用的かつ生産環境で利用可能なソリューションを提供すること。実際のTwitterデータを用いた検証を実施。

提案手法

  • DISCOフレームワークは、ベクトル要素の大きさと既知のベクトルノルムのバックグラウンドモデルに基づいてエントリをサンプリングする、革新的なサンプリング戦略を採用。これにより次元に依存しない計算が可能になる。
  • コサイン、ディスカート、オーバーラップ、ジャコードの各類似度測定に対して、期待値が真の類似度に一致する推定器を構築。分散はサンプリングパラメータで制御される。
  • ジャコード類似度のための改良型MinHashを導入。理論的境界により、標準MinHashと類似した性能を示しつつ、次元に依存しない処理を可能にする。
  • MapReduceモデルに従い、各キーあたりのリダーサーが受信する値がO(log D / ε)に制限されるように設計。これにより、シャッフルサイズとリダースキーの複雑さが次元Nに依存しなくなる。
  • サンプリング方式は、類似度が高いペアほど推定誤差が小さくなるように設計されており、しきい値ベースの類似度検索に最適である。
  • 既知のベクトルノルムを格納するバックグラウンドモデルを用い、繰り返しの計算を回避。ストリーミング拡張により、追加メモリコストは対数的になる。

実験結果

リサーチクエスチョン

  • RQ1すべてのペアワイズ類似度計算を、データ次元Nに依存しないものとして、かつ高い精度を保証できるようにできるか?
  • RQ2MapReduceにおけるシャッフルサイズとリダースキーの複雑さを、次元Nに依存しないように削減できるか? ただし精度を損なわないものとする。
  • RQ3サンプリング戦略により、協調フィルタリングなどの実世界の応用で求められる、類似度が高いペアの推定精度が向上するか?
  • RQ4コサイン、ジャコード、ディスカート、オーバーラップといった複数の類似度測定に対して、統一的かつスケーラブルなアプローチで一般化できるか?
  • RQ5実世界の高次元データ、たとえばTwitterユーザーフォローグラフのような大規模データに対して、実際の性能はどのようになるか?

主な発見

  • DISCOフレームワークは、次元Nに依存しないシャッフルサイズO(DL log D / ε)を達成。Twitter規模のデータにおいて、ナイーブなO(NL²)アプローチと比較して最大99.8%の削減を実現。
  • 1キーあたりのリダースキー複雑さはO(log D / ε)で抑えられ、非常に大規模なデータセットに対しても処理が可能。Nに依存しない。
  • コサイン、ディスカート、オーバーラップ、ジャコードの全類似度測定において、類似度が高いペアの誤差が小さくなる。類似度がε以上であるペアの誤差は、シャッフルサイズ削減に伴い最大99.8%まで低下。
  • DISCOに組み込まれた改良型MinHashは、標準MinHashと類似した性能を示し、理論的境界によりその正確性と次元に依存しない性質が裏付けられている。
  • Twitterデータを用いた実験結果から、DISCOは通信コストを著しく削減しながらも高い精度を維持していることが判明。サブセットに対して真値との比較でも検証済み。
  • 本フレームワークはTwitter.comで生産環境にデプロイされており、ユーザの類似度計算やキーワード提案の分野で実世界でのスケーラビリティと実用性を実証している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。