[論文レビュー] Zeus: Understanding and Optimizing GPU Energy Consumption of DNN Training
Zeusはオンライン最適化フレームワークで、再発するDNNトレーニングジョブの間に、バッチサイズとGPU電力制限を共同で調整して、エネルギーと時間の合成コストを最小化します。Thompson Samplingに基づく多腕バンディットとジャストインタイムのエネルギープロファイラを用います。
Training deep neural networks (DNNs) is becoming increasingly more resource- and energy-intensive every year. Unfortunately, existing works primarily focus on optimizing DNN training for faster completion, often without considering the impact on energy efficiency. In this paper, we observe that common practices to improve training performance can often lead to inefficient energy usage. More importantly, we demonstrate that there is a tradeoff between energy consumption and performance optimization. To this end, we propose Zeus, an optimization framework to navigate this tradeoff by automatically finding optimal job- and GPU-level configurations for recurring DNN training jobs. Zeus uses an online exploration-exploitation approach in conjunction with just-in-time energy profiling, averting the need for expensive offline measurements, while adapting to data drifts over time. Our evaluation shows that Zeus can improve the energy efficiency of DNN training by 15.3%-75.8% for diverse workloads.
研究の動機と目的
- 性能とのトレードオフを認識しつつ、DNNトレーニングにおけるエネルギー消費の削減を動機づける。
- さまざまなワークロードにおいて、バッチサイズとGPU電力制限がエネルギー効率と精度到達時間に与える影響を特徴づける。
- オフラインのプロファイリングを必要とせず、データドリフトに対応するオンライン最適化手法を開発し、再発するトレーニングジョブに適応する。
- 最小限のコード変更で既存のDNNワークフローと統合可能にする。
提案手法
- DNNトレーニングにおけるエネルギーと性能のトレードオフを、バッチサイズとGPU電力制限の間で特徴づける。
- ETAとTTAをユーザー定義のηと組み合わせたコストC(b,p;η)として最適化目的を定式化する。
- バッチサイズと電力制限の最適化を切り離して探索空間を削減しつつ、最適性を維持する。
- ジャストインタイムのエネルギープロファイラを用いて、一定のバッチサイズに対して電力制限ごとにAvgPower(b,p)とThroughput(b,p)をオンラインプロファイルする。
- 観測コストを用いて信念を更新しつつ、再現ごとにバッチサイズを選択するためにGaussian Thompson SamplingをMABポリシーとして適用する。
- データドリフトと同時実行ジョブに対応するため、ウィンドウ化されたコスト分散と非定常性処理を用いて探索を剪定・適応する。
実験結果
リサーチクエスチョン
- RQ1バッチサイズとGPU電力制限は、DNNのエネルギー消費とトレーニング時間にどのように共同で影響を与えるか?
- RQ2オフラインのプロファイリングなしに、オンラインでワークロード適応型の最適化手法はエネルギーと時間の合成コストを最小化できるか?
- RQ3ゼウスは本番クラスタでの確率的なトレーニング、データドリフト、同時に実行される再現ジョブをどのように処理するか?
主な発見
- Zeusは、ベースラインの最大バッチサイズと最大電力制限と比べて、さまざまなワークロードでエネルギー消費を15.3%–75.8%削減する。
- トレーニング時間は、ベースライン構成と比較して60.6%短縮される。
- Zeusはデータドリフトへの適応が速く、マルチGPU設定をサポートする。
- オンラインプロファイリングとThompson Samplingを用いて、最適に近い構成へ収束する。
- ジャストインタイムのプロファイリングは、オフラインの高価な測定を避けつつ、オーバーヘッドはほとんどない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。