Skip to main content
QUICK REVIEW

[論文レビュー] Systematic analysis of cluster computing log data: the case of IBM BlueGene/Q

Alia Sîrbu, Özalp Babaoğlu|arXiv (Cornell University)|Oct 16, 2014
Cloud Computing and Resource Management参考文献 10被引用数 1
ひとこと要約

本研究では、IBM Blue Gene/Qシステムからの異種ログデータ(電力、温度、ワークロード、ハードウェア/ソフトウェアイベント)を体系的かつマルチスケールに分析し、コンponent間の相関パターンを同定する。電力と温度の間には低レベルのクロスコンponent相関が、イベント同士には高い相関が、ワークロードと電力の間には中程度の相関が認められ、HPCインfra構造管理における予測モデリングの基盤が提供される。

ABSTRACT

The complexity and cost of managing high-performance computing infrastructures are on the rise. Automating management and repair through predictive models to minimize human interventions is an attempt to increase system availability and contain these costs. Building predictive models that are accurate enough to be useful in automatic management cannot be based on restricted log data from subsystems but requires a holistic approach to data analysis from disparate sources. Here we provide a detailed multi-scale characterization study based on four datasets reporting power consumption, temperature, workload, and hardware/software events for an IBM Blue Gene/Q installation. We show that the system runs a rich parallel workload, with low correlation among its components in terms of temperature and power, but higher correlation in terms of events. As expected, power and temperature correlate strongly, while events display negative correlations with load and power. Power and workload show moderate correlations, and only at the scale of components. The aim of the study is a systematic, integrated characterization of the computing infrastructure and discovery of correlation sources and levels to serve as basis for future predictive modeling efforts.

研究の動機と目的

  • 自動的で予測可能なメンテナンスによって、高性エネルギー計算(HPC)インfra構造の管理の複雑化とコスト増を是正すること。
  • サブシステムレベルのログ分析の限界を克服し、正確な予測モデリングを可能にする包括的かつ統合的なデータアプローチを採用すること。
  • 実運用のBlue Gene/Q環境における電力、温度、ワークロード、システムイベントの相互依存関係を同定すること。
  • 将来的なシステム可用性および故障防止のための信頼性の高い予測モデル開発を支援する多スケールの相関構造を特定すること。

提案手法

  • 運用中のIBM Blue Gene/Qシステムから得た電力消費、温度測定値、ワークロードメトリクス、ハードウェア/ソフトウェアイベントの4つの異なるデータセットを収集・分析する。
  • 異なるシステムコンponentおよび時間粒度において相関関係を評価するためのマルチスケール分析を実施する。
  • 電力、温度、ワークロード、イベント頻度の間の関係を定量化するために、統計的相関分析を用いる。
  • スイート型のサブシステム分析を避けるために、包括的なデータ統合アプローチを採用し、コンponent間のインサイトを可能にする。
  • 負の相関も含めた相関関係の特定に注力し、負荷変動に伴うシステム挙動の理解を深める。
  • コンponentレベルおよびシステムレベルの集計を用いて、相関パターンがスケールに応じてどのように変化するかを評価する。

実験結果

リサーチクエスチョン

  • RQ1大規模HPCシステム、例えばIBM Blue Gene/Qにおいて、電力と温度はコンponent間でどのように相関するか?
  • RQ2異なるスケールにおいて、システムワークロードと電力消費量の関係は何か?
  • RQ3ハードウェアおよびソフトウェアイベントは、電力、温度、ワークロードレベルとどのように相関するか?
  • RQ4統合フレームワークを用いて複数のソースからの異種ログデータを分析した際、どのような相関パターンが顕在化するか?
  • RQ5HPCインfra構造のログにおいて、コンponentレベルの相関はシステム全体のトレンドとどの程度異なるか?

主な発見

  • 計算活動に伴う熱放出のため、電力と温度はコンponent間で強く正の相関を示す。これは予想通りである。
  • 電力とワークロードは中程度の相関を示すが、これはコンponentレベルでのみ観察可能であり、システム全体では顕在しない。
  • ハードウェアおよびソフトウェアイベントは、負荷および電力消費量と負の相関を示しており、利用度が高くなるとイベント頻度が低下していることを示唆している。
  • 温度と電力の間には低レベルのクロスコンponent相関が認められ、システム全体にわたり熱的およびエネルギー的挙動の空間的ばらつきが存在することを示している。
  • イベントデータは、電力や温度よりもコンponent間で高い内部相関を示しており、故障やログ記録の同期的・連携的なパターンが存在することを示している。
  • 本研究では、スケールごとに明確な相関構造が同定され、予測的システム管理におけるマルチスケールモデリングの必要性が強調された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。