QUICK REVIEW

[論文レビュー] Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference

Jovan Stojkovic, Esha Choukse|arXiv (Cornell University)|Mar 29, 2024

Metallurgical Processes and Thermodynamics被引用数 13

ひとこと要約

本論文は LLM 推論におけるエネルギー効率の調整項目を特性化し、それらがレイテンシ、スループット、エネルギーに与える影響を分析し、パフォーマンスを犠牲にせず、持続可能でコスト効果の高い LLM 配備に向けた洞察を提供する。

ABSTRACT

With the ubiquitous use of modern large language models (LLMs) across industries, the inference serving for these models is ever expanding. Given the high compute and memory requirements of modern LLMs, more and more top-of-the-line GPUs are being deployed to serve these models. Energy availability has come to the forefront as the biggest challenge for data center expansion to serve these models. In this paper, we present the trade-offs brought up by making energy efficiency the primary goal of LLM serving under performance SLOs. We show that depending on the inputs, the model, and the service-level agreements, there are several knobs available to the LLM inference provider to use for being energy efficient. We characterize the impact of these knobs on the latency, throughput, as well as the energy. By exploring these trade-offs, we offer valuable insights into optimizing energy usage without compromising on performance, thereby paving the way for sustainable and cost-effective LLM deployment in data center environments.

研究の動機と目的

データセンターのエネルギー消費の高まりを背景に、LLM 推論提供におけるエネルギー効率を第一の目標として動機づける。
ワークロードのタイプ、バッチ処理、モデル並列性、GPU 周波数がレイテンシ、スループット、エネルギーに与える影響を特性化する。
パフォーマンス SLO の下でエネルギー効率の良い LLM 提供を実現する現実的な調整項目とトレードオフを特定する。
エネルギー効率の高い LLM 推論フレームワークとオーケストレーション戦略の要件を概説する。

提案手法

NVIDIA DGX-H100 を用い、vLLM をサービングプラットフォームとして Llama-2 70B で実験を行う。
800 MHz から 1980 MHz までの GPU 周波数を変化させ、異なるワークロード下でのレイテンシ、スループット、エネルギーを検討する。
プラットフォームレベルでの三つのエネルギー調整項目を探る：ワークロードタイプ、バッチ処理、モデル並列性（テンソル並列性）。
デフォルトとして 8-way tensor parallelism を使用；TTFT、TBT、スループット、電力/エネルギーを構成ごとに分析する。
入力/出力トークン長で定義されたワークロードバケット（Small, Medium, Large）と異なるバッチサイズの影響を分析する。

実験結果

リサーチクエスチョン

RQ1ワークロードの特徴（入力/出力長）が周波数スケーリング下での TTFT、TBT、スループット、エネルギーにどのように影響するか？
RQ2現実的な LLM ワークロードの下で、テンソル並列性（TP2、TP4、TP8）を変化させた場合のエネルギーとパフォーマンスのトレードオフは何か？
RQ3バッチ処理が周波数スケーリングとどのように相互作用して LLM 推論のレイテンシとエネルギー消費に影響するか？
RQ4典型的な SLO に対して、レイテンシやスループットを犠牲にせずエネルギー効率の高い構成を達成できるか？

主な発見

GPU 周波数を下げると、ほとんどの構成でレイテンシやスループットに影響を与えず、約 20% の電力削減を実現できる。
長い入力はプリフィル圧力を増加させ、周波数キャップ下でより多くスロットルする一方、デコードはメモリ依存のままで周波数変化に対して感度が低い。
テンソル並列性は TTFT と TBT を低減するが、通信オーバーヘッドの増加により効果が逓減する；TP2 はしばしば要求あたりのコストが有利で、特定条件下では TP8 よりエネルギー効率が良い場合がある。
バッチ処理は周波数スケーリングと相互作用する；大きなバッチサイズはスループットを向上させる可能性があるが TTFT SLO を逸することがあり、低周波数で中程度のバッチサイズで運用すると大幅なエネルギー節約（例: ~1.6x frequency vs 2.0x）を実現しつつスループットの低下を小さくできる。
エネルギー効率戦略は、電力、エネルギー、パフォーマンスを最適化するには異なる最適構成が必要であることを示しており、いくつかのプラットフォームレベルの決定はパフォーマンスにペナルティを課すことなくエネルギー効率を改善できる。
中負荷シナリオでは、TP8 は TP2 よりエネルギー効率が高くなることがあり、ノードレベルのアクセスが DGX-H100 ノードのフル構成に制約される場合、実用的な展開の地域差を浮き彫りにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。