[論文レビュー] Scheduling Splittable Jobs on Configurable Machines
本稿では、NVIDIA A100 GPU 上でのディープニューラルネットワーク(DNN)推論を、マルチインスタンスGPU(MIG)パーティショニングを用いて最適化する MIG-serving というシステムを提案する。ヒューリスティック、遺伝的アルゴリズム(GA)、モンテカルロツリー探索(MCTS)を組み合わせた手法により、サービスレベルオブジェクティブ(SLO)を満たすコスト効率の高いGPU設定を生成し、モノリシックなA100使用と比較してGPU使用量を最大40%削減する。
Motivated by modern architectures allowing for the partitioning of a GPU into hardware separated instances, we initiate the study of scheduling splittable jobs on configurable machines. We consider machines that can be configured into smaller instances, which we call blocks, in multiple ways, each of which is referred to as a configuration. We introduce the Configurable Machine Scheduling (cms) problem, where we are given n jobs and a set C of configurations. A schedule consists of a set of machines, each assigned some configuration in C with each block in the configuration assigned to process one job. The amount of a job’s demand that is satisfied by a block is given by an arbitrary function of the job and block. The objective is to construct a schedule using as few machines as possible. We provide a tight logarithmic factor approximation algorithm for this problem in the general setting, a factor (3 + ε) approximation algorithm for arbitrary ε > 0 when there are O(1) input configurations, and a polynomial time approximation scheme when both the number and size of configurations are O(1). Finally, we utilize a technique for finding conic integer combinations in fixed dimension to develop an optimal polynomial time algorithm in the case with O(1) jobs, O(1) blocks, and every configuration up to a given size.
研究の動機と目的
- MIG 対応 A100 GPU 上での DNN 推論ワークロードを効率的にスケジューリングする課題に取り組む。これは、ハードウェア制約に起因する非自明なパーティショニング意思決定を伴う。
- 再構成可能マシンスケジューリング問題(RMS)を定義・形式化し、非線形なパフォーマンススケーリング、制限付きのパーティショニングルール、部分的な再構成機能を捉える。
- 複数の DNN モデルが同時に実行される状況で、SLO(スループットおよび遅延)を満たすために必要な GPU 数を最小限に抑えるシステムを設計する。
- 構成更新時の構成変更において、サービスの中断を生じさせずにスムーズかつ透明に移行を実現する。
- Kubernetes ベースのクラスタを用いた実世界の環境で、システムのパフォーマンスと効率性を評価し、全体の A100 を使用するベースライン設定と比較する。
提案手法
- 初期デプロイ用に高速なグリーディヒューリスティックを用いた二段階最適化パイプラインを提案。最初の段階で速やかに初期配置を決定し、2番目の段階で反復的かつ遅延のかかる遺伝的アルゴリズム(GA)を用いて解を精錬・改善する。
- 複雑な設定空間を探索するための高精度な探索コンponentとして、モンテカルロツリー探索(MCTS)を統合する。
- SLO の満たし方と GPU 利用率に基づくフィットネス関数に従い、親の解を交叉と変異によって組み合わせる独自の遺伝的アルゴリズムを採用し、デプロイ構成を進化させる。
- コントローラーモジュールで、透明で非破壊的なデプロイ移行を可能にする新規の「交換・compact」アルゴリズムを採用する。
- Kubernetes 上にシステムを実装し、クラスタ全体にまたがる MIG インスタンスのリアルタイムスケジューリングとオ케ストレーションを管理する。
- PyTorch および TensorFlow Hub から得た 49 個のモデルの実測ベンチマークを用いて、各インスタンスサイズごとの DNN パフォーマンスをモデル化し、非線形なスループットスケーリングを捉える。
実験結果
リサーチクエスチョン
- RQ1MIG 対応 A100 GPU 上で、異種の DNN ワークロードを効率的にスケジューリングする方法は何か? これにより、SLO を満たしつつ GPU 使用量を最小限に抑えることができるか?
- RQ2従来のスケジューリングアルゴリズムを不適切にする MIG パーティショニングの主な制約と特徴は何か?
- RQ3ヒューリスティック、GA、MCTS を組み合わせたハイブリッドなアルゴリズムパイプラインは、コスト効率および設定品質の面でベースライン手法を上回るか?
- RQ4実行時再構成の際、デプロイ移行をエンドユーザーに透明に実現するにはどうすればよいか?
- RQ5MIG-serving は、A100 をモノリシックな単位として使用する場合と比較して、どの程度 GPU フットプリントを削減できるか?
主な発見
- MIG-serving は、A100 を全体として使用する場合(A100-7/7)と比較して、GPU 使用量を最大40%削減し、評価したすべてのモデルで最高のコスト効率を達成した。
- 49 種類の多様な DNN モデル(ResNet-50、BERT-base、BERT-large を含む)が MIG パーティションにデプロイされた際、すべての SLO が正常に満たされた。
- 2つの実世界ワークロード間のデプロイ移行が30分未塔で完了し、サービスの中断は観測されなかった。
- MIG インスタンス上での DNN モデルのパフォーマンスは、リソース割り当てに対して線形にスケーリングしないことが確認され、インスタンスサイズに依存するスケジューリングの必要性が裏付けられた。
- 再構成可能マシンスケジューリング問題(RMS)は NP 困難であり、制限付きのパーティショニングルールと非線形なパフォーマンス曲線のため、従来のリソース割り当てヒューリスティックでは解けない。
- 高速なヒューリスティックと遅延の MCTS を用いた GA の組み合わせにより、時間の経過とともにデプロイ品質が著しく向上し、最終的にほぼ最適な構成に到達した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。