[論文レビュー] EcoServe: Designing Carbon-Aware AI Inference Systems
EcoServe は再利用、適正サイズ化、削減、リサイクルの4つの柱からなるカーボン認識フレームワークを提供し、LLM 推論における運用炭素と含有炭素の両方を最適化。小さな性能トレードオフで最大47%の炭素削減を達成。
The rapid increase in LLM ubiquity and scale levies unprecedented demands on computing infrastructure. These demands not only incur large compute and memory resources but also significant energy, yielding large operational and embodied carbon emissions. In this work, we present three main observations based on modeling and traces from the production deployment of two Generative AI services in a major cloud service provider. First, while GPUs dominate operational carbon, host processing systems (e.g., CPUs, memory, storage) dominate embodied carbon. Second, offline, batch inference accounts for a significant portion (up to 55\%) of serving capacity. Third, there are different levels of heterogeneity across hardware and workloads for LLM inference. Based on these observations, we design EcoServe, a carbon-aware resource provision and scheduling framework for LLM serving systems. It is based on four principles - Reduce, Reuse, Rightsize, and Recycle (4R). With a cross-stack ILP formulation and design, we demonstrate that EcoServe can lower carbon emissions by up to 47\%, compared to performance, energy, and cost-optimized design points, while maintaining performance targets and SLOs.
研究の動機と目的
- AI推論システムにおける運用炭素と含有炭素の両方に対処する必要性を動機づける。
- ホストシステムとGPUを含む炭素排出の全体モデルを開発する。
- SLOと性能を維持しつつ炭素を最適化する EcoServe の4つの設計柱を提案する。
- 容量計画、リソース割り当て、スケジューリングを共同設計することで炭素を削減する方法を実証する。
- オープンソースと本番トレース全体での炭素削減を定量化する。
提案手法
- AIシステムの含有炭素モデルを、ホストCPU、メモリ、ストレージ、PCB、GPU構成要素を含めて開発する。
- 運用排出と含有排出の両方を組み込み、電力、時間、炭素強度の関数として総炭素を特徴づける。
- EcoServe の4設計柱(Reuse、Rightsize、Reduce、Recycle)を提案し、性能、効率、炭素を共最適化するILPを定式化する。
- オフライン推論のためのアイドルCPUの再利用を示し、容量を増加させ含有炭素を削減する。
- ワークロード特性と炭素効率に基づいてオンライン/オフラインフェーズのための異種GPUを適正サイズ化する。
- 無駄なハードウェアを減らし、ホストとアクセラレータ構成を効率的にリサイクルする戦略を提示する。

実験結果
リサーチクエスチョン
- RQ1AI推論システムの総炭素フットプリントに対する運用炭素と含有炭素の寄与はどの程度か。
- RQ2クロスレイヤーのカーボン認識設計(Reuse、Rightsize、Reduce、Recycle)はSLOを犠牲にせず排出を削減できるか。
- RQ3オフライン推論におけるCPU再利用は容量と含有炭素にどのような影響を与えるか。
- RQ4異種GPUをどのように提供すべきか。異なるLLMフェーズ(プロンプト vs デコード)でのエネルギー、炭素、性能を最適化するには。
- RQ5総炭素を最小化するためのハードウェアリサイクルとライフタイム延長の戦略は何か。
主な発見
- EcoServe は最適化された基線と比較して最大47%の炭素排出を削減しつつ性能目標とSLOを維持できる。
- オフライン推論のためのアイドルCPU資源を再利用することでクラスタ容量を増加させ、未活用のホスト構成要素を活用して含有炭素を削減。
- 異種ハードウェア全体でGPUを適正サイズ化し、オフライン/オンラインフェーズを考慮することでエネルギー・炭素・性能効率の顕著な改善。
- 無駄な含有炭素を削減するためにより leanなハードウェアとホストシステムの効率的リサイクルを行えば、柱ごとに29%〜41%の炭素削減が達成可能(Reuse、Rightsize、Reduce、Recycle)。
- ワークロードスライス(プロンプト vs デコード)とハードウェアのILPベースの共同最適化により、最小限の性能低下で1.4×〜2.2×の炭素利益を達成。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。