QUICK REVIEW

[論文レビュー] Iterative MapReduce for Large Scale Machine Learning

Joshua Rosen, Neoklis Polyzotis|arXiv (Cornell University)|Mar 13, 2013

Cloud Computing and Resource Management参考文献 11被引用数 26

ひとこと要約

この論文では、大規模な機械学習ワークロードに適した反復処理をネイティブにサポートする、MapReduceモデルの拡張版であるIterative MapReduceを提案する。最初のクラスのループ構文と、データパーティショニングおよび集約木構造を最適化する静的最適化ツールを導入することで、Vowpal Wabbitのような専用システムと同等のパフォーマンスを達成し、メモリキャッシュやディスクオンリーオンのI/Oを仮定しないHadoopよりも優れた性能を発揮する。

ABSTRACT

Large datasets ("Big Data") are becoming ubiquitous because the potential value in deriving insights from data, across a wide range of business and scientific applications, is increasingly recognized. In particular, machine learning - one of the foundational disciplines for data analysis, summarization and inference - on Big Data has become routine at most organizations that operate large clouds, usually based on systems such as Hadoop that support the MapReduce programming paradigm. It is now widely recognized that while MapReduce is highly scalable, it suffers from a critical weakness for machine learning: it does not support iteration. Consequently, one has to program around this limitation, leading to fragile, inefficient code. Further, reliance on the programmer is inherently flawed in a multi-tenanted cloud environment, since the programmer does not have visibility into the state of the system when his or her program executes. Prior work has sought to address this problem by either developing specialized systems aimed at stylized applications, or by augmenting MapReduce with ad hoc support for saving state across iterations (driven by an external loop). In this paper, we advocate support for looping as a first-class construct, and propose an extension of the MapReduce programming paradigm called {\em Iterative MapReduce}. We then develop an optimizer for a class of Iterative MapReduce programs that cover most machine learning techniques, provide theoretical justifications for the key optimization steps, and empirically demonstrate that system-optimized programs for significant machine learning tasks are competitive with state-of-the-art specialized solutions.

研究の動機と目的

MapReduceが反復的機械学習アルゴリズムを効率的に処理できないという根本的制限を解消すること。
プログラマーが低レベルパラメータを信頼できるようにチューニングできないマルチテナントクラウド環境において、システム主導の最適化を可能にすること。
Iterative MapReduceプログラムの最適実行設定を自動選択する、原理的で静的な最適化ツールを開発すること。
自動最適化が、Vowpal Wabbitのような最先端の専用MLシステムと同等のパフォーマンスを達成できることを実証すること。

提案手法

反復的機械学習アルゴリズムをネイティブに表現できる最初のクラスのループ構文をMapReduceモデルに拡張する。
ループに配慮したスケジューリング、データキャッシュ、反復間での効率的集約をサポートする新しいランタイムを設計する。
通信コストと計算コストの理論的分析に基づき、最適なデータパーティショニングと集約木のファンインを決定する静的最適化ツールを開発する。
120ノードのクラスタ上で実世界のMLワークロードを用いて最適化ツールの選択を実証的に検証し、応答時間とコストを測定する。
理論的モデルを用いて最適なファンインとマシン数を予測し、制御された実験で検証する。
理論的根拠と実証的評価を組み合わせて、データパーティショニングや集約構造といったシステムパラメータをチューニングする。

実験結果

リサーチクエスチョン

RQ1MapReduceに最初のクラスのループ抽象化を導入することで、臨時の反復プログラミングに比べて、大規模な機械学習ワークロードの効率性と保守性を著しく向上させられるか？
RQ2静的最適化ツールは、Iterative MapReduceプログラムの最適なデータパーティショニングと集約木構成を自動的にどのように選択できるか？
RQ3システム主導の最適化は、Vowpal Wabbitのような専用で手動チューニングされたMLシステムのパフォーマンスに、どの程度まで達するか、あるいはそれを上回れるか？
RQ4実世界のシステム制約やオーバーヘッドを考慮しても、定数の最適ファンイン（約e）の理論的予測は成り立つか？
RQ5動的でマルチテナントなクラウド環境において、最適化ツールは応答時間とコストを効果的にバランスさせられるか？

主な発見

集約木の最適ファンインは、実証的にほとんどの構成で一定の4または5に保たれ、理論的予測のeとは乖離しているが、モデルに含まれないセットアップコストが原因である。
最適化ツールは、100GBのデータセットに対して、応答時間を最小化するN=120コア、コストを最小化するN=24コアを正しく特定し、理論的予測と一致した。
システム最適化済み設定のIterative MapReduceは、標準のHadoopを上回り、最先端のシステムVowpal Wabbitと同等のパフォーマンスを達成した。
データサイズやクラスタ構成が変化しても、システムのパフォーマンスは安定しており、理論的予測と実証的結果が一貫して一致した。
すべてのテスト構成において、静的最適化ツールはプログラマーのチューニングなしで効率的な実行計画を正しく選択した。
結果から、ランタイム環境が不安定で予測不能なクラウド環境においても、システム主導の最適化が実現可能で効果的であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。