Skip to main content
QUICK REVIEW

[論文レビュー] Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads

Myeongjae Jeon, Shivaram Venkataraman|arXiv (Cornell University)|Jan 17, 2019
Cloud Computing and Resource Management被引用数 118
ひとこと要約

本論文は、ローカリティ、スケジューリング、およびDNNトレーニングに対する故障の影響を理解するために、Microsoftの大規模マルチテナントGPUクラスターを分析し、次世代スケジューラの設計ガイドラインを提供します。

ABSTRACT

With widespread advances in machine learning, a number of large enterprises are beginning to incorporate machine learning models across a number of products. These models are typically trained on shared, multi-tenant GPU clusters. Similar to existing cluster computing workloads, scheduling frameworks aim to provide features like high efficiency, resource isolation, fair sharing across users, etc. However Deep Neural Network (DNN) based workloads, predominantly trained on GPUs, differ in two significant ways from traditional big data analytics workloads. First, from a cluster utilization perspective, GPUs represent a monolithic resource that cannot be shared at a fine granularity across users. Second, from a workload perspective, deep learning frameworks require gang scheduling reducing the flexibility of scheduling and making the jobs themselves inelastic to failures at runtime. In this paper we present a detailed workload characterization of a two-month long trace from a multi-tenant GPU cluster in a large enterprise. By correlating scheduler logs with logs from individual jobs, we study three distinct issues that affect cluster utilization for DNN training workloads on multi-tenant clusters: (1) the effect of gang scheduling and locality constraints on queuing, (2) the effect of locality on GPU utilization, and (3) failures during training. Based on our experience running a large-scale operation, we provide design guidelines pertaining to next-generation cluster schedulers for DNN training workloads.

研究の動機と目的

  • gang schedulingと locality constraints がDNNトレーニングに用いられる大規模マルチテナントGPUクラスターにおけるキューイングと利用率へどう影響するかを特徴づける。
  • locality-aware schedulingが分散マルチGPUジョブ全体のGPU利用率とトレーニング効率に与える影響を評価する。
  • DNNトレーニングワークロードにおける主要な故障モードと、それがクラスターの利用率と再試行ポリシーへ与える影響を特定する。
  • 次世代クラスター・スケジューラの設計ガイドラインを提供し、DNNワークロードにおける locality、 isolation、早期故障検知を改善する。

提案手法

  • MicrosoftのマルチテナントGPUクラスタ(Philly)の約2か月間のトレースを分析し、約100,000ジョブと14の仮想クラスターを対象とする。
  • スケジューラログ(YARN)をジョブごとのログおよびGanglia利用データと相関させ、 locality、キューイング、故障を調査する。
  • 公正分配フェアシェアとフラグメンテーションの成分に分解したキューイング遅延を特徴づけ、それらがGPU数に依存することを示す。
  • 同一サーバー、異なるサーバー、サーバー内/サーバー間配置など、異なる配置シナリオ下でのGPUおよびホスト資源利用を評価する。
  • Phillyを他のスケジューラと比較し、DNNワークロードにおける locality認識型スケジューリングの実践的設計ガイドラインを提供する。

実験結果

リサーチクエスチョン

  • RQ1 locality制約と gang scheduling がDNNトレーニングジョブのキューイング遅延にどう影響するか?
  • RQ2 locality認識型スケジューリングが分散型マルチGPUジョブ全体のGPU利用率とトレーニング性能にどのように影響するか?
  • RQ3 大規模マルチテナントDNNトレーニングクラスターにおけるジョブ失敗の主な原因は何であり、それが利用率へどう影響するか?
  • RQ4 フラグメンテーション、干渉、故障を緩和して利用率と性能を改善するために、どのようなスケジューラ設計選択が有効か?」],
  • RQ5key_findings [

主な発見

  • キューイング遅延は locality の影響を受け、 localityを緩和すると特に4GPUを超える大規模GPUジョブで遅延が減少する。
  • 使用中のGPUs全体の平均的なGPUハードウェア利用率は約52%であり、同期と干渉のために大規模ジョブで利用率が低下する。
  • フラグメンテーション遅延が多くのジョブの待機時間を支配しており、特に5–8GPU以上の構成で顕著である。フェアシェア遅延は quotas が枯渇したときに発生する。
  • 約30%のジョブが失敗するか終了されるものの、それらはGPU時間の substantial portion を占め、故障による非効率を浮き彫りにしている。
  • 複数サーバーにまたがる分散トレーニングはRDMA/PCIe競合とサーバー間通信のオーバーヘッドのためGPU利用率を低下させる;同時配置ジョブは利用率をさらに低下させる。
  • ほとんどの合格ジョブは損失を最適化するためにはほぼ全エポックを完了する必要があり、早期終了の機会がGPU時間を節約する可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。