[論文レビュー] DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference
DeepSpeed-FastGen は Dynamic SplitFuse を DeepSpeed-MII および DeepSpeed-Inference と組み合わせて LLM テキスト生成のスループットを向上させ、レイテンシを低減します。複数の Llama-2 モデルで vLLM を上回ります。
The deployment and scaling of large language models (LLMs) have become critical as they permeate various applications, demanding high-throughput and low-latency serving systems. Existing frameworks struggle to balance these requirements, especially for workloads with long prompts. This paper introduces DeepSpeed-FastGen, a system that employs Dynamic SplitFuse, a novel prompt and generation composition strategy, to deliver up to 2.3x higher effective throughput, 2x lower latency on average, and up to 3.7x lower (token-level) tail latency, compared to state-of-the-art systems like vLLM. We leverage a synergistic combination of DeepSpeed-MII and DeepSpeed-Inference to provide an efficient and easy-to-use serving system for LLMs. DeepSpeed-FastGen's advanced implementation supports a range of models and offers both non-persistent and persistent deployment options, catering to diverse user scenarios from interactive sessions to long-running applications. We present a detailed benchmarking methodology, analyze the performance through latency-throughput curves, and investigate scalability via load balancing. Our evaluations demonstrate substantial improvements in throughput and latency across various models and hardware configurations. We discuss our roadmap for future enhancements, including broader model support and new hardware backends. The DeepSpeed-FastGen code is readily available for community engagement and contribution.
研究の動機と目的
- 長いプロンプトや対話的ワークロードのための高スループット、低レイテンシの LLM サービングの必要性を喚起する。
- 連続バッチ処理を改善するプロンプト生成の構成戦略として Dynamic SplitFuse を導入する。
- 使いやすいサービングシステムを実現するための DeepSpeed-MII と DeepSpeed-Inference の統合を紹介する。
- モデルとハードウェアを横断してパフォーマンスをベンチマークし、スループット、レイテンシ、およびテールレイテンシの改善を定量化する。
- デプロイオプション(非永続 vs 永続)と、より広範なモデルサポートとハードウェアバックエンドのロードマップを検討する。
提案手法
- Dynamic SplitFuse を提案し、長いプロンプトを複数のフォワードパスにわたってスケジュールされる小さなチャンクに分解する。
- 連続バッチ処理と非連結 KV キャッシュを活用して占有率を改善し断片化を低減する。
- ブロック化された KV キャッシュを活用して同時実行性とスループットを向上させる。
- Frontend API、バッチングスケジューラ、最適化されたカーネルを提供するために DeepSpeed-MII と DeepSpeed-Inference を組み合わせる。
- スケーラビリティのためのオプションのロードバランシングを備えた非永続および永続デプロイメントモードの両方を実装する。
- 複数のモデルと GPU に跨るスループット-レイテンシ曲線と SLA 制約下の有効スループットで評価する。

実験結果
リサーチクエスチョン
- RQ1Dynamic SplitFuse は vLLM のような最先端システムと比較して、長いプロンプトを扱う LLM ワークロードのスループットとレイテンシを改善できるか?
- RQ2順伝播トークン数が、バッチサイズの変動に対してレイテンシとスループットにどのような影響を与えるか?
- RQ3ロードバランシングとマルチレプリカ展開が全体的なスケーラビリティと SLA 達成に与える影響はどの程度か?
- RQ4非永続デプロイメントモードと永続デプロイメントモードが、対話的な場面と長時間実行のシナリオにおける使いやすさと性能にどう影響するか?
- RQ5DeepSpeed-FastGen で観測されるテールレイテンシの改善(P90/P95)と全体的なレイテンシの安定性はどの程度か?
主な発見
- DeepSpeed-FastGen は vLLM に対して最大で 2.3x の有効スループットを達成。
- 平均して約 2x の低レイテンシと、最大で 3.7x のトークン単位テールレイテンシの低減を達成。
- テールレイテンシの改善は、プリエンプションではなく、同時実行のプロンプト処理と生成に起因する。
- 最大 16 レプリカにまたがるロードバランシングにより、ほぼ線形のスケーラビリティを実現(16 レプリカで 16x のスループット)。
- A100、H100、A6000 ハードウェア上で Llama-2 70B、13B、7B のパフォーマンス向上を確認。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。