[論文レビュー] PerLLM: Personalized Inference Scheduling with Edge-Cloud Collaboration for Diverse LLM Services
PerLLMは、動的なリソース条件の下で、制約充足上界信頼区間(CS-UCB)アプローチを用いた個別化エッジ-クラウド推論スケジューリングフレームワークを提案し、エネルギーを最小化しつつLLMサービスのスループットを最適化します。
With the rapid growth in the number of large language model (LLM) users, it is difficult for bandwidth-constrained cloud servers to simultaneously process massive LLM services in real-time. Recently, edge-cloud infrastructures have been used to improve the processing efficiency of large-scale LLM services. However, the diversity of task requirements and the dynamics of resources pose great challenges to inference scheduling, leading to the wastage of many resources. In this paper, we present PerLLM, a personalized inference scheduling framework with edge-cloud collaboration designed for diverse LLM services. For the complexity of multiple constraints and the decision-making process of edge-cloud collaboration, we integrate the upper confidence bound algorithm based on the constraint satisfaction mechanism in PerLLM. For diverse LLM services, PerLLM can optimize service scheduling and resource allocation solutions within the edge-cloud infrastructure to meet processing time requirements while minimizing energy costs. Experimental results from different model deployments show that PerLLM can effectively meet the processing time requirements of personalized services. Compared to other methods, PerLLM achieves 2.2x, 2.1x, and 1.6x throughput and reduces the energy cost by more than 50%.
研究の動機と目的
- 帯域幅制約のあるクラウドサーバ上で、効率的なリアルタイムLLM推論を動機づける。
- エッジ-クラウド協調を活用して、多様なLLMタスクに対して高速応答と推論品質のバランスを取る。
- 動的なリソースとサービス要件に適応するスケジューリングとリソース割当フレームワークを開発する。
- 制約充足を伴う組合せ型多腕バンディット問題として問題を形式化する。
- 学習ベースで制約を意識したスケジューリングのアルゴリズムと理論解析を提供する。
提案手法
- 複数のサービスをエッジまたはクラウドのサーバへ割り当てる問題を、組合せ型多腕バンディット(CMAB)として定式化する。
- 処理時間、帯域幅、計算能力の制約を最適化に組み込むための制約充足メカニズムを導入する。
- 実現可能なアクションをフィルタリングし、上限信頼値(UCB)値が最も高いアクションを選択するCS-UCBアルゴリズムを定義し、探索と活用のバランスを取る。
- ペナルティ項を介して制約違反を罰する報酬関数を組み込み、エネルギーコスト(送信、推論、アイドル)を考慮する。
- 制約違反と動的環境下でのCS-UCBの理論的後悔と計算量解析を提供する。
実験結果
リサーチクエスチョン
- RQ1動的リソース条件下で、エッジ-クラウド協業をどのように最適化して、多様なLLMサービス要件を満たすことができるか?
- RQ2制約意識型CMAB(CS-UCB)フレームワークは、スループットを最大化しつつエネルギーを最小化するように、サービスのスケジューリングとリソース割り当てを効果的に行えるか?
- RQ3この制約付きCMAB設定におけるCS-UCBの理論的保証(後悔境界)はどうなるか?
- RQ4帯域幅の変動下で、PerLLMは処理時間満足度、スループット、エネルギーコストの点でベースラインと比較してどうなるか?
主な発見
| モデル | FineInfer | AGOD | RewardlessGuidance | PerLLM |
|---|---|---|---|---|
| Yi-6B | 58% | 67% | 74% | 98% |
| LLaMA2-7B | 58% | 69% | 77% | 99% |
| LLaMA3-8B | 58% | 66% | 74% | 98% |
| Yi-9B | 58% | 66% | 71% | 97% |
- PerLLMは、モデル展開と動的帯域幅を跨いで、処理時間要件を満たす成功率が97%を超える。
- PerLLMは、ベースライン(FineInfer、AGOD、RewardlessGuidance)よりもスループットを1.6×–2.2×向上させる。
- PerLLMはベースラインと比較してエネルギーコストを50%以上削減する。
- 実験結果は、サービス要件を満たすように動的にリソースを割り当てることで、より高い処理効率を示す。
- CS-UCBアプローチは、制約を尊重しつつ、資源ダイナミクスを効果的に学習・適応する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。