[論文レビュー] BOute: Cost-Efficient LLM Serving with Heterogeneous LLMs and GPUs via Multi-Objective Bayesian Optimization
BOute は、複数目的ベイズ最適化フレームワークを用いて、異種の LLM へのクエリルーティングと異種の GPU へのデプロイを共同最適化し、品質目標を満たしつつコストとレイテンシを大幅に改善する。
The rapid growth of large language model (LLM) deployments has made cost-efficient serving systems essential. Recent efforts to enhance system cost-efficiency adopt two main perspectives: (i) An algorithmic perspective that exploits heterogeneous model capabilities to route simpler queries to lower-cost models and complex queries to higher-cost models (i.e., heterogeneous query routing); and (ii) a systems perspective that utilizes heterogeneous GPU resources as cost-effective alternatives to homogeneous high-end GPUs (i.e., heterogeneous model deployment). However, algorithm-system co-design for cost-efficient LLM serving necessitates sophisticated management: (i) Determining optimal query routing strategies under latency and quality requirements, (ii) configuring model deployment across heterogeneous GPUs with appropriate resource allocation and parallelism strategies, and (iii) co-optimizing routing and deployment decisions to maximize overall system performance. To address these challenges, we present BOute, a quality-aware scheduling system that jointly exploits heterogeneous model and GPU capabilities for cost-efficient LLM serving. BOute employs a multi-objective Bayesian optimization (MOBO) framework to co-optimize the routing strategy and model deployment, thereby maximizing the cost-efficiency of the serving system while guaranteeing response quality. Evaluation results demonstrate that BOute outperforms state-of-the-art LLM serving systems by up to 157% and 59% on average under identical cost budgets and quality requirements, or reducing serving costs by 15%-61% (38% on average) while maintaining the same performance targets, validating its effectiveness in achieving cost-efficient LLM serving.
研究の動機と目的
- モデルと GPU の異種性を通じたコスト効率の良い LLM サービングを動機づける。
- レイテンシと品質の制約の下で、ルーティングとデプロイメントの結合最適化問題を定式化する。
- パレート最適解を見つけるための多目的ベイズ最適化フレームワークを開発する。
- 最先端ベースラインと比較して、レイテンシ、スループット、コストの substantial な改善を実証する。
提案手法
- ルーティングをチューニング可能な tau 阈値による閾値ベースの意思決定として定式化する。
- デプロイメントを GPU をモデルへ割り当てる割り当て行列 A と並列性 P の定義として定義する。
- 予算と GPU 制約の下でレイテンシと品質の多目的最適化問題として共同問題をモデル化する。
- オフライン: 推論タスクシミュレータを用いて単一・複製デプロイメントをプロファイルし性能データベースを構築する。
- オンライン MOBO: 加法カーネル GP 代理関数とロード分数再パラメータ化、および制約対応の制約付き qNEHVI取得関数を用いる。
- 構造的バイアス(モデル- GPU の好み、対数変換など)を組み込み、最適化を安定化させる。
実験結果
リサーチクエスチョン
- RQ1ルーティング決定とデプロイメント構成を共に最適化して、レイテンシを最小化しつつ出力品質を維持または向上させるにはどうすればよいか?
- RQ2異種の GPU をデプロイすることが、異種 LLM のサービングのコスト効率とレイテンシにどのような影響を与えるか?
- RQ3MOBO は予算と GPU 利用可能性の制約の下でパレート最適な構成を識別できるか?
- RQ4ロード分数、GPU の好みといった構造的エンコードは MOBO の効率と解の品質にどのように影響するか?
主な発見
- BOoute は同じ予算と品質目標の下で、システムレイテンシを最大で 2.6 倍低減し、平均 1.6 倍の改善を達成する。
- BOoute は同じ制約の下で、システムのスループットを最大で 1.9 倍向上させる(平均 1.6 倍)。
- 異種モデルルーティングと異種 GPU デプロイメントは相補的であり、レイテンシの改善とコスト効率の高いサービングを可能にする。
- 異なるモデルは異なる GPU で異なる性能を示すため、異種デプロイメントが不可欠である。
- MOBO フレームワークは、レイテンシと品質のバランスを取るパレート最適なルーティングとデプロイメント構成へ収束する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。