Skip to main content
QUICK REVIEW

[論文レビュー] The power of two choices with simple tabulation

Søren Dahlgaard, Mathias Bæk Tejs Knudsen|arXiv (Cornell University)|Jan 10, 2016
Algorithms and Data Compression参考文献 19被引用数 8
ひとこと要約

この論文は、定数時間で効率的に計算可能な単純なテーブルハッシュ化—完全にランダムなハッシュ化と同一の O(lg lg n) の最大負荷を高確率で達成することを確立している。これは、2つの選択肢の負荷バランス配分パラダイムにおける長年の未解決問題を解消し、単純なテーブルハッシュ化の高確率境界を証明するとともに、完全にランダムなハッシュ化とは異なり、特定の状況では lg lg n + O(1) を超える最大負荷が生じることを示している。

ABSTRACT

The power of two choices is a classic paradigm for load balancing when assigning m balls to n bins. When placing a ball, we pick two bins according to two hash functions h0 and h1, and place the ball in the least loaded bin. Assuming fully random hash functions, when m = O(n), Azar et al. [STOC'94] proved that the maximum load is lg lg n + O(1) with high probability. No such bound was known with a hash function implementable in constant time.In this paper, we investigate the power of two choices when the hash functions h0 and h1 are implemented with simple tabulation, which is a very efficient hash function evaluated in constant time. Following their analysis of Cuckoo hashing [J.ACM'12], Patrascu and Thorup claimed that the expected maximum load with simple tabulation is O(lg lg n). This did not include any high probability guarantee, so the load balancing was not yet to be trusted.Here, we show that with simple tabulation, the maximum load is O(lg lg n) with high probability, giving the first constant time hash function with this guarantee. We also give a concrete example where, unlike with fully random hashing, the maximum load is not bounded by lg lg n + O(1), or even (1 + o(1)) lg lg n with high probability. Finally, we show that the expected maximum load is lg lg n + O(1), just like with fully random hashing.

研究の動機と目的

  • 2つの選択肢の負荷バランスにおける理論的保証と実用的効率のギャップを埋めること。
  • 完全にランダムなハッシュ関数の代わりに単純なテーブルハッシュ化を使用する場合の最大負荷に対する高確率境界を確立すること。
  • 単純なテーブルハッシュ化が、完全にランダムなハッシュ化と同様に lg lg n + O(1) の最大負荷境界を高確率で満たすかどうかを特定すること。
  • 単純なテーブルハッシュ化の限界を分析し、最大負荷が高確率で lg lg n + O(1) を超える具体的な状況を同定すること。
  • 単純なテーブルハッシュ化の下での期待最大負荷が lg lg n + O(1) に保たれることを確認すること。

提案手法

  • 著者たちは、キーを文字レベルの演算に基づく決定的かつ定数時間の計算によってバケツにマッピングする単純なテーブルハッシュ化を用いた2つの選択肢の分析を行う。
  • 彼らは、集中不等式やマルティングルの議論を含む高度な確率的技法を用いて、バケツ間の負荷分布を分析する。
  • 分析は、時間経過に伴うバケツ負荷の変化に焦点を当て、2つのランダムに選ばれたバケツのうちの良い方を選択することで最大負荷がどのように減少するかを追跡する。
  • 彼らは、完全にランダムなハッシュ化とは異なり、単純なテーブルハッシュ化では特定のシナリオにおいて最大負荷が高確率で lg lg n + O(1) を超える可能性があることを示す反例を構築する。
  • 彼らは、この事実にもかかわらず、慎重な尾確率推定を通じて最大負荷が高確率で O(lg lg n) のまま保たれることを証明する。
  • また、モーメントに基づく分析を用いて、期待最大負荷が完全にランダムな場合と同様に lg lg n + O(1) に保たれることを確立する。

実験結果

リサーチクエスチョン

  • RQ1単純なテーブルハッシュ化は、2つの選択肢の設定において、高確率で O(lg lg n) の最大負荷を達成できるか?
  • RQ2完全にランダムなハッシュ化と同様に、単純なテーブルハッシュ化の下での最大負荷は高確率で lg lg n + O(1) に抑えられるか?
  • RQ3単純なテーブルハッシュ化が、高確率で lg lg n + O(1) を著しく超える最大負荷を引き起こすような特定の入力構成は存在するか?
  • RQ42つの選択肢のパラダイムにおいて単純なテーブルハッシュ化を使用する場合の期待最大負荷は何か?
  • RQ5負荷分布の保証という観点から、単純なテーブルハッシュ化は完全にランダムなハッシュ化と比べてどのように性能を発揮するか?

主な発見

  • 単純なテーブルハッシュ化を用いた最大負荷は、高確率で O(lg lg n) であり、完全にランダムなハッシュ化の理論的境界と一致する。
  • 最大負荷が高確率で lg lg n + O(1) を超える具体的な入力例が存在し、完全にランダムなハッシュ化とは顕著な違いを示している。
  • 単純なテーブルハッシュ化の下での期待最大負荷は lg lg n + O(1) であり、完全にランダムな場合と同一である。
  • この結果により、単純なテーブルハッシュ化が実用的で定数時間のハッシュ関数であり、強力な高確率負荷バランス保証を提供することが立証された。
  • これは、2つの選択肢モデルにおいて、高確率で O(lg lg n) の最大負荷を達成する最初の定数時間ハッシュ関数を提供するという、長年の未解決問題を解決する。
  • 分析により、単純なテーブルハッシュ化が決定的かつ効率的であるものの、2択パラダイムにおいてほぼ最適な負荷バランス性能を達成できることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。