QUICK REVIEW

[論文レビュー] Characterizing LLM Inference Energy-Performance Tradeoffs across Workloads and GPU Scaling

Paul Joe Maliakel, Shashikant Ilager|ArXiv.org|Jan 14, 2025

Business Process Modeling and Analysis被引用数 5

ひとこと要約

本論文は、推論時のエネルギー、レイテンシ、スループット、メモリのトレードオフを特徴付けるために、多様なNLPタスクにおける幅広いLLMをベンチマークし、ハードウェアDVFSの効果と入力特性を分析して、エネルギー効率の高いデプロイメントを導く。

ABSTRACT

LLM inference exhibits substantial variability across queries and execution phases, yet inference configurations are often applied uniformly. We present a measurement-driven characterization of workload heterogeneity and energy-performance behavior of LLM inference under GPU dynamic voltage and frequency scaling (DVFS). We evaluate five decoder-only LLMs (1B-32B parameters) across four NLP benchmarks using a controlled offline setup. We show that lightweight semantic features predict inference difficulty better than input length, with 44.5% of queries achieving comparable quality across model sizes. At the hardware level, the decode phase dominates inference time (77-91%) and is largely insensitive to GPU frequency. Consequently, reducing GPU frequency from 2842 MHz to 180 MHz achieves an average of 42% energy savings with only a 1-6% latency increase. We further provide a use case with an upper-bound analysis of the potential benefits of combining workload-aware model selection with phase-aware DVFS, motivating future energy-efficient LLM inference systems.

研究の動機と目的

持続可能なAIを動機づけるために、推論時のエネルギーとレイテンシに対するモデルサイズ、アーキテクチャ、タスク、ハードウェア設定の影響を理解する。
複数のタスクにわたって、多様なモデル群（GPT-2、Falcon-7B、Mistral-7B、GPT-J-6B、GPT-Neo-2.7B、T5-3B）を評価し、エネルギーと性能のダイナミクスをマッピングする。
入力特性（シーケンス長、バッチサイズ）がエネルギー、スループット、レイテンシに対する影響を調査する。
LLM推論のエネルギー効率と性能に対するハードウェアレベルのDVFS影響を評価し、実用的な最適化戦略を特定する。

提案手法

6つの事前学習モデルをNVIDIA A100GPU上でベンチマークする。
SQuADv2、BoolQ、XSum、HellaSwag、OpenBookQA、などを含むタスクで、BLEU、F1、精度、エネルギー、スループットなどの指標を用いて評価する。
入力シーケンス長の区間（0-50、51-100、101-150、151-200）と、タスクあたり100クエリで8幅のバッチを用いた場合のバッチサイズ効果を分析する。
DVFS設定（[210, 405, 615, 810, 1005, 1215, 1410] MHz）を検証して、レイテンシとエネルギーのトレードオフを測定する。
nvidia-smiによるリアルタイム電力監視と統計分析を用いて洞察を導出する。

実験結果

リサーチクエスチョン

RQ1異なるNLPタスク（テキスト生成、QA、常識推論、要約）が、LLM全体のエネルギー消費と性能にどのように影響するか？
RQ2入力特性（シーケンス長、バッチサイズ）は推論時のレイテンシ、スループット、エネルギー効率にどのように影響するか？
RQ3ハードウェアDVFS設定が、さまざまなモデルとタスクにおけるエネルギー効率と性能に与える影響は何か？

主な発見

小型モデル（例：GPT-2）は、単純なタスクで一貫してエネルギー消費が少なく、より高いスループットを提供するため、エネルギー制約のあるシナリオに適している。
中〜大型モデル（Falcon-7B、Mistral-7B）は、性能とエネルギーのバランスを取り、SQuADv2やHellaSwagのような複雑なタスクで優れているが、GPT-2よりエネルギーを多く消費する。
GPT-J-6BとGPT-Neo-2.7Bは高いエネルギー消費とメモリ要求を示し、多くのタスクで非効率的であることを示している。
複数のタスクで、より高いGPUクロック（1005–1410MHz）へのDVFS調整は、実行時間を短縮して全体のエネルギー消費を低減する。
入力シーケンス長は一般にすべてのモデルでレイテンシとエネルギーを増加させ、特に大きなモデルほど影響を受けやすく、長い文脈にはタスク固有のモデル選択を強調する。
バッチサイズを8まで増やすと、BoolQとSquadV2タスクでエネルギー効率が大幅に向上し、レイテンシが低減されることから、バッチ最適化を実用的な手段として強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。