[論文レビュー] Dynamic Space-Time Scheduling for GPU Inference
本稿では、複数のDNNモデルの推論カーネルを統合することで、マルチテナントオンライン推論におけるGPU利用率を向上させる動的空間時間スケジューラーを提案する。異なるモデルのカーネルを1つのスーパーカーネル呼び出しにバッチ処理することで、時間単独の多重化より最大7.73倍の浮動小数点演算スループットを達成し、空間単独の方法より3.23倍向上した。同時に、遅延の予測可能性とパフォーマンス隔離を確保した。
Serving deep neural networks in latency critical interactive settings often requires GPU acceleration. However, the small batch sizes typical in online inference results in poor GPU utilization, a potential performance gap which GPU resource sharing can address. In this paper, we explore several techniques to leverage both temporal and spatial multiplexing to improve GPU utilization for deep learning inference workloads. We evaluate the performance trade-offs of each approach with respect to resource-efficiency, latency predictability, and isolation when compared with conventional batched inference. Our experimental analysis suggests up to a 5x potential for improved utilization through the exploration of more advanced spatial and temporal multiplexing strategies. Our preliminary prototype of a dynamic space-time scheduler demonstrates a 3.23x floating-point throughput increase over space-only multiplexing and a 7.73x increase over time-only multiplexing for convolutions, while also providing better isolation and latency predictability.
研究の動機と目的
- 小さなバッチサイズと変動するワークロードによるオンラインDNN推論におけるGPU利用率の低さという重要な問題に対処する。
- 既存の空間単独または時間単独のGPU多重化の限界を克服し、リソース効率、予測可能性、隔離性を損なわないようにする。
- GPUアクセラレート推論ワークロードにおける効率的で、予測可能かつ隔離されたマルチテナント運用を可能にするスケジューラーを設計する。
- 実世界のマルチテナントGPU推論環境におけるリソース効率、遅延の予測可能性、隔離性のトレードオフを評価する。
提案手法
- 複数のDNNモデルからのカーネル呼び出しを1つのスーパーカーネル起動にバッチ処理するソフトウェアベースの動的スケジューラーを実装する。
- MAGMA BLASライブラリを用いて、入力サイズが異なる複数のモデルのSGEMM演算を統合し、1つのバッチ化されたカーネルに統合する。
- 固定サイズの問題にはNVIDIAのcuBLASバッチGEMM機能を活用し、異種のモデルに対応するため可変サイズのバッチ処理に拡張する。
- 各モデルのサービスレベルオブジェクティブ(SLO)に基づいてワークロードをスケジューリングし、遅延とスループットのバランスを取る動的バッチ決定を可能にする。
- GPUタイムスライス内でのGPUリソース利用率を最大化するために、分離されたDNN計算グラフ間でのカーネル統合を実施する。
- 制御された条件下で、代表的なDNNレイヤー(例:ResNet-18 conv2_2)および行列乗算タイプ(RNN、正方形、畳み込みレイヤー)を用いてパフォーマンスを測定する。
実験結果
リサーチクエスチョン
- RQ1動的空間時間多重化は、空間単独または時間単独のスケジューリングを超えて、オンラインDNN推論におけるGPU利用率を向上させることができるか?
- RQ2マルチテナントGPU推論において、インターモデルカーネルバッチ処理は遅延の予測可能性とパフォーマンス隔離にどのように影響するか?
- RQ3従来のバッチ推論および既存の多重化戦略と比較して、動的空間時間スケジューラーはどの程度のスループット向上を達成するか?
- RQ4異なる入力サイズおよび重みを持つモデル間でのカーネル統合は、現代のGPUにおけるリソース効率をどの程度向上できるか?
- RQ5本稿で提案するスケジューラーは、インタラクティブな推論システムで一般的に見られる変動的かつ確率的なクエリワークロード下でも、予測可能なパフォーマンスを維持できるか?
主な発見
- 動的空間時間スケジューラーは、ResNet-18畳み込みレイヤーにおいて、空間単独の多重化より3.23倍、時間単独の多重化より7.73倍の浮動小数点スループット向上を達成した。
- 行列乗算ワークロードでは、2~120台の同時モデルを想定した平均で、次善の方法(空間単独)より4.93倍のスループット向上を達成した。
- スーパーカーネルを介したインターモデルカーネルバッチ処理により、空間的および時間的多重化が向上し、GPUリソースの空きを削減して利用率が向上した。
- 従来のアプローチに比べ、スケジューラーはより優れた遅延の予測可能性とパフォーマンス隔離を実現しており、高い変動性と干渉の問題を緩和した。
- スループットのスケーリングが顕著に向上した:例えば、RNNの行列ベクトル演算で2.48倍の高速化、空間単独の多重化と比較してResNet-18 conv2_2レイヤーで3.23倍の向上を達成した。
- 従来のバッチ推論と高度な多重化手法との間には顕著なパフォーマンスギャップが確認され、推論ワークロードにおけるGPU利用の潜在的余力が明確に示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。