Skip to main content
QUICK REVIEW

[論文レビュー] Precision-Aware application execution for Energy-optimization in HPC
 node system

Radim Vavřík, Antoni Portero|arXiv (Cornell University)|Jan 1, 2015
Distributed and Parallel Computing Systems被引用数 3
ひとこと要約

本論文は、HPCシステムにおける精度に配慮したランタイムリソース管理(RTRM)フレームワークを提案し、アプリケーションの品質保証(QoS)要件に基づいて計算リソースを動的に調整することで、エネルギー消費を最適化する。システムの健全性を監視し、事前に計算された精度、実行時間、エネルギーの最適なトレードオフを用いることで、RTRMはネイティブ実行と比較して10%未満の時間オーバーヘッドで最大65%高い精度を達成し、制御された精度の低下を通じてエネルギー節約を実現しながら24時間365日運用を可能にする。

ABSTRACT

Power consumption is a critical consideration in high performance computing
 systems and it is becoming the limiting factor to build and operate Petascale
 and Exascale systems. When studying the power consumption of existing systems
 running HPC workloads, we find that power, energy and performance are closely
 related which leads to the possibility to optimize energy consumption without
 sacrificing (much or at all) the performance. In this paper, we propose a HPC
 system running with a GNU/Linux OS and a Real Time Resource Manager (RTRM) that
 is aware and monitors the healthy of the platform. On the system, an
 application for disaster management runs. The application can run with
 different QoS depending on the situation. We defined two main situations.
 Normal execution, when there is no risk of a disaster, even though we still
 have to run the system to look ahead in the near future if the situation
 changes suddenly. In the second scenario, the possibilities for a disaster are
 very high. Then the allocation of more resources for improving the precision
 and the human decision has to be taken into account. The paper shows that at
 design time, it is possible to describe different optimal points that are going
 to be used at runtime by the RTOS with the application. This environment helps
 to the system that must run 24/7 in saving energy with the trade-off of losing
 precision. The paper shows a model execution which can improve the precision of
 results by 65% in average by increasing the number of iterations from 1e3 to
 1e4. This also produces one order of magnitude longer execution time which
 leads to the need to use a multi-node solution. The optimal trade-off between
 precision vs. execution time is computed by the RTOS with the time overhead
 less than 10% against a native execution.

研究の動機と目的

  • ペタスケールおよびエクサスケールHPCシステムにおける増大するエネルギーコストの障壁に対処すること。
  • 精度、実行時間、エネルギー消費のランタイムトレードオフを活用することで、パフォーマンスを損なわずにエネルギー最適化を実現すること。
  • システム健全性を監視し、アプリケーションのQoS要件に基づいてリソース割り当てを動的に適応させるリアルタイムリソースマネージャー(RTRM)の設計。
  • リスク状況に応じて精度を制御的に低下させることでエネルギー節約を実現し、重要なHPCアプリケーションの24時間365日運用を可能にすること。

提案手法

  • RTRMは、電力、温度、負荷などのシステムセンサーをリアルタイムで監視し、プラットフォームの健全性とリソース利用状況を評価する。
  • 設計時段階で、精度、実行時間、エネルギー消費のバランスを最適化したPareto最適な設定を計算する。
  • RTRMは動的電力モデル Pn = (Pmax − Pidle) × n/100 + Pidle を使用し、n をシステム負荷として、電力とエネルギー消費を推定する。
  • エネルギー消費は E = P × t として計算され、P は動的電力モデルで推定され、t は実行時間である。
  • フレームワークは単一ノード(SMP)およびマルチノード(HPCクラスタ)実行をサポートし、スケーラブルなリソース割り当てにより高い精度を実現する。
  • 精度のトレードオフをモデル化するため、反復回数を調整可能な災害管理アプリケーションを用い、SMPおよびクラスタプラットフォームの両方で結果を検証する。

実験結果

リサーチクエスチョン

  • RQ1リアルタイムリソースマネージャーは、パフォーマンスを低下させることなく、HPCシステムにおけるエネルギー消費を動的に最適化できるか?
  • RQ2災害管理シミュレーションにおいて、精度、実行時間、エネルギー消費の最適なトレードオフは何か?
  • RQ3精度に配慮したRTRMは、ネイティブ実行と比較してどの程度の時間オーバーヘッドを引き起こすか?
  • RQ4低リスクの状況において精度を低下させることで、RTRMは顕著なエネルギー節約を達成できるか、かつ許容可能な精度を維持できるか?
  • RQ5マルチノード環境では、高精度シミュレーションをサポートするために、システムはどの程度スケーリングできるか?

主な発見

  • RTRMはネイティブ実行と比較して10%未満の時間オーバーヘッドを示し、パフォーマンスへの影響が最小限であることを実証した。
  • 反復回数を 103 から 104 に増加させることで、シミュレーション精度が平均65%向上し、計算量の増加が正確性向上に有効であることを検証した。
  • SMPプラットフォームにおけるエネルギー消費の推定結果から、精度、コア数、周波数の間の明確なトレードオフが確認され、Pareto最適な設定選択が可能になった。
  • HPCクラスタでは、ノード数の増加に伴い電力消費が急激に上昇(最大16×16コアノードまで)、実行時間の改善は顕著ではなく、知的なリソース管理の必要性が浮き彫りになった。
  • フレームワークにより、リスク状況に応じて低精度(エネルギー節約)モードと高精度(高精度)モードの間で動的に切り替えられるため、重要なHPCアプリケーションの24時間365日運用が可能になった。
  • システムは設計時段階で最適な設定を特定・利用でき、RTRMが実行時においてそれらを適用することで、エネルギー効率とアプリケーションのQoSの両立が達成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。