Skip to main content
QUICK REVIEW

[論文レビュー] Sampling Sketches for Concave Sublinear Functions of Frequencies

Edith Cohen, Ofir Geri|arXiv (Cornell University)|Jul 4, 2019
Machine Learning and Algorithms被引用数 4
ひとこと要約

この論文では、大規模な分散データセットにおけるキー周波数の凹型準線形関数を推定するための合成可能なサンプリングスケッチを導入する。サイズ効率が良く、統計的に正確な、関数重み付き寄与度に比例するサンプリングを可能にすることで、理想のサンプルに近い推定精度を達成し、スケッチサイズは所望のサンプルサイズに非常に近い。

ABSTRACT

We consider massive distributed datasets that consist of elements modeled as key-value pairs and the task of computing statistics or aggregates where the contribution of each key is weighted by a function of its frequency (sum of values of its elements). This fundamental problem has a wealth of applications in data analytics and machine learning, in particular, with concave sublinear functions of the frequencies that mitigate the disproportionate effect of keys with high frequency. The family of concave sublinear functions includes low frequency moments ($p \leq 1$), capping, logarithms, and their compositions. A common approach is to sample keys, ideally, proportionally to their contributions and estimate statistics from the sample. A simple but costly way to do this is by aggregating the data to produce a table of keys and their frequencies, apply our function to the frequency values, and then apply a weighted sampling scheme. Our main contribution is the design of composable sampling sketches that can be tailored to any concave sublinear function of the frequencies. Our sketch structure size is very close to the desired sample size and our samples provide statistical guarantees on the estimation quality that are very close to that of an ideal sample of the same size computed over aggregated data. Finally, we demonstrate experimentally the simplicity and effectiveness of our methods.

研究の動機と目的

  • キーの寄与度がその周波数の凹型準線形関数によって重み付けされる、大規模な分散データセット上で統計を効率的に計算する課題に対処する。
  • 従来の集約ベースのサンプリングの非効率性を克服するため、完全な周波数集約を回避する合成可能なスケッチを設計する。
  • 最小限のメモリと強力な統計的保証を伴いながら、関数重み付き寄与度(例:log(周波数)、p ≤ 1 のpノルム)に比例するサンプリングを可能にする。
  • 推定精度を、集約データ上で計算された理想のサンプルと同等に保ちつつ、スケッチサイズを所望のサンプルサイズに非常に近づける。

提案手法

  • 完全な集約を伴わせずに、キーフレーケンシー対のコンact表現を維持する合成可能なサンプリングスケッチを設計する。
  • 対数、キャッピング、低次のモーメント(p ≤ 1)を含む、周波数の任意の凹型準線形関数にスケッチ構造を適合させる。
  • キーがその関数重み付き寄与度に比例する確率で選択される重み付きサンプリングの原則を用いる。
  • スケッチが合成可能であることを保証することで、分散計算を可能にする—異なるデータパーティションからのスケッチは、再計算なしにマージ可能である。
  • 凹型準線形関数の性質を活用して推定誤差を限定し、統計的整合性を確保する。
  • スケッチサイズが漸近的に所望のサンプルサイズに近づくように構築する。

実験結果

リサーチクエスチョン

  • RQ1分散システムにおいて、キー周波数の凹型準線形関数の正確な推定を可能にする合成可能なサンプリングスケッチを設計できるか?
  • RQ2スケッチの推定品質は、完全に集約されたデータ上で計算された理想のサンプルにどの程度近いか?
  • RQ3このようなスケッチの空間計算量は、所望のサンプルサイズに対してどの程度か?
  • RQ4この手法は、対数関数やキャッピング関数を含む、任意の凹型準線形関数に一般化可能か?
  • RQ5精度と効率の観点から、ナイーブな集約ベースのサンプリングと比較して、スケッチは実際の環境でどの程度の性能を示すか?

主な発見

  • 提案された合成可能なサンプリングスケッチは、集約データ上で計算された同じサイズの理想のサンプルと非常に近い推定品質を達成する。
  • スケッチサイズは所望のサンプルサイズに非常に近く、分散環境におけるメモリオーバーヘッドを最小限に抑える。
  • この手法は、周波数の任意の凹型準線形関数(p ≤ 1 の低周波数モーメント、対数関数、キャッピング関数を含む)をサポートする。
  • スケッチは合成可能であり、完全な周波数集約を必要とせずに、効率的な分散計算を可能にする。
  • 実験結果により、この手法の単純さと実用的環境における有効性が示された。
  • 推定誤差に関する統計的保証は強く、理想のサンプリングの理論的期待と密接に一致する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。