QUICK REVIEW

[論文レビュー] AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving

Zhuohan Li, Lianmin Zheng|ArXiv.org|Feb 22, 2023

Cloud Computing and Resource Management被引用数 20

ひとこと要約

AlpaServe は、クラスター全体にわたる多数の大規模ディープラーニングモデルのコレクションを自動的に分割・配置し、モデル並列性を活用して統計的マルチプレクシングを実現し、急増するワークロード下でSLOの達成を改善します。

ABSTRACT

Model parallelism is conventionally viewed as a method to scale a single large deep learning model beyond the memory limits of a single device. In this paper, we demonstrate that model parallelism can be additionally used for the statistical multiplexing of multiple devices when serving multiple models, even when a single model can fit into a single device. Our work reveals a fundamental trade-off between the overhead introduced by model parallelism and the opportunity to exploit statistical multiplexing to reduce serving latency in the presence of bursty workloads. We explore the new trade-off space and present a novel serving system, AlpaServe, that determines an efficient strategy for placing and parallelizing collections of large deep learning models across a distributed cluster. Evaluation results on production workloads show that AlpaServe can process requests at up to 10x higher rates or 6x more burstiness while staying within latency constraints for more than 99% of requests.

研究の動機と目的

メモリ制限を超える複数の大規模モデルをサービングする際のモデル並列性の利用を動機づけ、分析する。
レイテンシが敏感なサービングにおけるモデル並列のオーバーヘッドと統計的マルチプレクシング利得とのトレードオフを特徴づける。
SLO達成を最大化するために、クラスタ全体で複数モデルを自動的に分割・配置・スケジュールするアルゴリズムを開発する。

提案手法

Alpa をベースにした Autoparallelization を、フォワード伝播に焦点を当て、最大段のレイテンシを最小化することで、サービングへ拡張する。
デバイスグループ全体でのモデル複製、グルーピング、モデル並列構成を最適化するため、シミュレータを2レベルに用いた貪欲配置アルゴリズムを開発する。
DPベースの inter-op 分析と ILPベースの intra-op 分析を用いて、サービングワークロードの候補並列構成を列挙する。
予測されたワークロードパターンの下でのSLO達成を推定するためにシミュレータを統合し、配置決定を導く。
重み同期が不要な推論ワークロードに適合させるため、トレーニング指向の自動並列化への拡張を提供する。

実験結果

リサーチクエスチョン

RQ1モデル並列性は、マルチモデルワークロードにおいてどの条件でサービングのレイテンシとSLO達成を改善するか。
RQ2クラスターをどのように分割し、どのモデルを同居または複製させるべきか、バースト的なリクエスト下でSLO達成を最大化するために。
RQ3サービングにおける inter-op および intra-op 並列性のオーバーヘッドは何であり、それらが配置決定にどのように影響するか。
RQ4構成空間の自動的な剪定は、効果的に高性能なモデル並列サービング戦略を特定できるか。

主な発見

モデル並列性はデバイス間での統計的マルチプレクシングを実現し、平均レイテンシを低減し、バースト耐性を高める。特にメモリが限られている場合やワークロードがバーストする場合に効果的。
バースト性の高い到着（高い CV）では、図示の2-model, 2-GPUのシナリオで平均レイテンシを最大1.9倍の高速化が可能。
SLOが厳密な場合（短い締切）、モデル並列はSLO違反を減らすことができるが、SLOが緩い場合にはオーバーヘッドのためレプリケーションに劣ることがある。
inter-op 並列性のオーバーヘッドは主にステージの不均衡によるもので、intra-op のオーバーヘッドはデバイス間通信に支配される。一方で、両方がスループットとレイテンシに異なる影響を及ぼす。
シミュレータ誘導の貪欲配置アルゴリズムは、クラスター全体に跨るモデルレプリカとグループを最適に配置・構成することで、高いSLO達成度（通常は98%超）を達成できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。