Skip to main content
QUICK REVIEW

[論文レビュー] Sorting, Searching, and Simulation in the MapReduce Framework

Michael T. Goodrich, Nodari Sitchinava|arXiv (Cornell University)|Jan 10, 2011
Complexity and Algorithms in Graphs参考文献 12被引用数 32
ひとこと要約

本稿では、マップリダクスにおけるソート、探索、並列アルゴリズムのシミュレーションのための効率的なアルゴリズムを提示し、O(log_M N)ラウンドとO(N log_M N)通信複雑性で最適な性能を達成している。マルチサーチとピボットに基づくバケツ分割を活用することで、プロセッサ1つあたりのメモリが部分線形である状況下でも定数ラウンドでの実行が可能となり、マップリダクスの理論的基盤が前進した。

ABSTRACT

In this paper, we study the MapReduce framework from an algorithmic standpoint and demonstrate the usefulness of our approach by designing and analyzing efficient MapReduce algorithms for fundamental sorting, searching, and simulation problems. This study is motivated by a goal of ultimately putting the MapReduce framework on an equal theoretical footing with the well-known PRAM and BSP parallel models, which would benefit both the theory and practice of MapReduce algorithms. We describe efficient MapReduce algorithms for sorting, multi-searching, and simulations of parallel algorithms specified in the BSP and CRCW PRAM models. We also provide some applications of these results to problems in parallel computational geometry for the MapReduce framework, which result in efficient MapReduce algorithms for sorting, 2- and 3-dimensional convex hulls, and fixed-dimensional linear programming. For the case when mappers and reducers have a memory/message-I/O size of $M=Θ(N^ε)$, for a small constant $ε>0$, all of our MapReduce algorithms for these applications run in a constant number of rounds.

研究の動機と目的

  • マップリダクスフレームワークの理論的基盤を、PRAM や BSP モデルと同等の水準に確立すること。
  • ソート、マルチサーチ、並列アルゴリズムのシミュレーションといった基本的問題に対する効率的なマップリダクスアルゴリズムを設計すること。
  • プロセッサ1つあたりのメモリが部分線形である条件下で、ソートおよび計算幾何学的問題に対して定数ラウンドでの実行を達成すること。
  • マップリダクスにおける高速かつインデックス化された探索の実現可能性を示し、その非効率性に対する批判に反論すること。
  • クラウドおよびクラスタ環境におけるデータ集約計算を実用的かつ理論的に整合性のある枠組みで提供すること。

提案手法

  • ランダムピボットを用いて入力データをバケツに分割し、並列ソートを実現する。
  • ソート済みピボットに構築された探索木を用いたマルチサーチにより、各入力アイテムを正しいバケットに割り当てる。
  • 各バケットに対して再帰的にソートアルゴリズムを並列に適用し、問題サイズを縮小する。
  • 1ラウンドあたりノード1つあたり最大M個のアイテムを処理できるように変更されたマップリダクスモデルを設計し、BSPおよびPRAMアルゴリズムのシミュレーションを可能にする。
  • FIFO入力バッファとキュー内のエッジ管理を用いてメッセージの流れを管理し、ラウンド間でデータ構造を保持する。
  • 各ノードが1ラウンドあたり最大M個のアイテムを送信および受信することに着目し、I/Oおよび通信複雑性が有界であることを保証する。

実験結果

リサーチクエスチョン

  • RQ1マップリダクスモデルにおいて、定数ラウンドでソートと探索を効率的に行うことは可能か?
  • RQ2BSPおよびCRCW PRAMモデルの並列アルゴリズムを、低コストのオーバーヘッドでマップリダクスでシミュレートするにはどうすればよいか?
  • RQ3マップリダクスにおけるマルチサーチの通信複雑性とラウンド複雑性は何か?さらに最適化可能か?
  • RQ4提案手法を用いて、効率的な凸包および線形計画法アルゴリズムをマップリダクスで実装できるか?
  • RQ5マップリダクスの理論的限界は、インデックス化および構造化されたデータアクセスをサポートする上でどこにあるか?

主な発見

  • 提案されたソートアルゴリズムは、高確率でO(log_M N)ラウンド、O(N log_M N)通信複雑性で実行される。
  • マルチサーチは、Θ(√N)個のランダムピボットに構築された探索木を用いて実現され、効率的なバケツ割り当てが可能となる。
  • 各マッパーおよびリデューサがメモリM = Θ(N^ε)(ε > 0 が十分に小さい)を備える場合、定数ラウンドでの性能が達成される。
  • 変更されたマップリダクスモデルにより、BSPおよびPRAMアルゴリズムがO(R)ラウンド、O(C)通信複雑性でシミュレート可能であり、効率性が保たれる。
  • 2次元および3次元の凸包、および固定次元の線形計画法の計算が、定数ラウンドで効率的に実行可能である。
  • ピボットに基づくアプローチにより、ブルートフォースソートのO(N² log_M N)からO(N log_M N)に通信複雑性が削減される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。