QUICK REVIEW

[論文レビュー] Interactive Analytical Processing in Big Data Systems: A Cross-Industry Study of MapReduce Workloads

Yanpei Chen, Sara Alspaugh|arXiv (Cornell University)|Aug 21, 2012

Cloud Computing and Resource Management参考文献 26被引用数 71

ひとこと要約

本論文は、eコマース、通信、メディア、小売業界の企業—Facebook や Cloudera の顧客を含む—から得た7つの大規模で生産環境向けの MapReduce ワークロードについて、実証的分析を実施した。その結果、従来のバッチ処理とは著しく異なるインタラクティブで準ストリーミング型の分析ワークロードが増加していることが明らかになった。本研究では、バースト型のワークロード、クエリに類似したフレームワーク（例：Hive や Pig）の広範な利用、および小規模で短時間のジョブの多発といった、重要な行動パターンを同定した。これらは、従来の均一なデータアクセスやジョブサイズ分布に関する仮定を揺るがすものである。

ABSTRACT

Within the past few years, organizations in diverse industries have adopted MapReduce-based systems for large-scale data processing. Along with these new users, important new workloads have emerged which feature many small, short, and increasingly interactive jobs in addition to the large, long-running batch jobs for which MapReduce was originally designed. As interactive, large-scale query processing is a strength of the RDBMS community, it is important that lessons from that field be carried over and applied where possible in this new domain. However, these new workloads have not yet been described in the literature. We fill this gap with an empirical analysis of MapReduce traces from six separate business-critical deployments inside Facebook and at Cloudera customers in e-commerce, telecommunications, media, and retail. Our key contribution is a characterization of new MapReduce workloads which are driven in part by interactive analysis, and which make heavy use of query-like programming frameworks on top of MapReduce. These workloads display diverse behaviors which invalidate prior assumptions about MapReduce such as uniform data access, regular diurnal patterns, and prevalence of large jobs. A secondary contribution is a first step towards creating a TPC-like data processing benchmark for MapReduce.

研究の動機と目的

技術分野にとどまらない、産業的 MapReduce デプロイメントにおける新たなインタラクティブおよび準ストリーミング型分析ワークロードを特徴づけること。
MapReduce ワークロードに関する長年の仮定（均一なデータアクセス、定期的な日次パターン、大規模バッチジョブの優位性など）が、実際の導入環境でどの程度成立するかを検証すること。
実世界のワークロードの多様性と複雑さを分析することで、ビッグデータ処理向け TPC に類似したベンチマークの基盤を提供すること。
多様な生産環境における共通のパターンや異常を同定することで、産業横断的なシステム最適化を可能にすること。

提案手法

eコマース、通信、メディア、小売業界の Facebook や Cloudera の顧客から得た、長期間にわたる7つの MapReduce ワークロードトレースを収集・分析した。
ワークロードを3つの概念的コンponentに分類した：データアクセスパターン、時間的行動、計算特性。
再現可能なベンチマーキングを可能にするために、ワークロードをスケールダウンするためのワークロードリプレイツールと合成データ生成を用いた。
ジョブの実行時間、データ量、フレームワークの使用状況（Hive や Pig）といったジョブレベルのメトリクスをトレースし、ワークロード構成を評価した。
時間的負荷変動、ピーク対中央値比、データ再アクセスパターンを分析することで、バースト性と局所性を評価した。
将来的なシステム間パフォーマンス評価の基盤として、公開用ワークロードリポジトリとリプレイツールの提案を行った。

実験結果

リサーチクエスチョン

RQ1産業的 MapReduce システムにおけるインタラクティブおよび準ストリーミング型分析ワークロードは、従来のバッチワークロードとどのように異なるか？
RQ2均一なデータアクセスや定期的な日次パターンといった、MapReduce に関する一般的な仮定が、実際の導入環境でどの程度成立するか？
RQ3クエリに類似したフレームワーク（例：Hive や Pig）は、クラスタ全体のワークロードおよびジョブ特性にどの程度の寄与をしているか？
RQ4異なる産業や組織間でワークロードのダイナミクスはどの程度変動するか？また、どのような行動が「典型的」と見なせるか？
RQ5実産業界のワークロードに基づいて、代表的で TPC に類似したベンチマークを設計するにあたり、どのような主な課題があるか？

主な発見

80% のデータ再アクセスが数分から数時間の間に発生しており、インタラクティブワークロードにおける強い時間的局所性を示している。
ピーク対中央値クラスタ負荷比は 9:1 から 260:1 の範囲にあり、非常にバースト的で予測困難なワークロードであることが示された。
すべてのワークロードにおいて、90% 以上のジョブが小規模であり、実行時間は数秒から数分、データ量は数十キロバイトから数ギガバイトの範囲にとどまっている。
Hive や Pig といったクエリに類似したフレームワークは、クラスタ全体の負荷の 20% から 80% を占めており、インタラクティブなデータ探索において中心的な役割を果たしていることが示された。
データアクセス頻度は、80-1 から 80-8 のような歪んだ分布を示しており、少数のデータが極めて頻繁にアクセスされている。
産業や組織間でのワークロード行動の多様性は、単一の「典型的な」MapReduce ワークロードの概念を無効にしている。これにより、ワークロードに配慮したシステム設計が不可欠となった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。