Skip to main content
QUICK REVIEW

[論文レビュー] Characterizing LLM Inference Energy-Performance Tradeoffs across Workloads and GPU Scaling

Paul Joe Maliakel, Shashikant Ilager|ArXiv.org|Jan 14, 2025
Business Process Modeling and Analysis被引用数 5
ひとこと要約

本論文は、推論時のエネルギー、レイテンシ、スループット、メモリのトレードオフを特徴付けるために、多様なNLPタスクにおける幅広いLLMをベンチマークし、ハードウェアDVFSの効果と入力特性を分析して、エネルギー効率の高いデプロイメントを導く。

ABSTRACT

LLM inference exhibits substantial variability across queries and execution phases, yet inference configurations are often applied uniformly. We present a measurement-driven characterization of workload heterogeneity and energy-performance behavior of LLM inference under GPU dynamic voltage and frequency scaling (DVFS). We evaluate five decoder-only LLMs (1B-32B parameters) across four NLP benchmarks using a controlled offline setup. We show that lightweight semantic features predict inference difficulty better than input length, with 44.5% of queries achieving comparable quality across model sizes. At the hardware level, the decode phase dominates inference time (77-91%) and is largely insensitive to GPU frequency. Consequently, reducing GPU frequency from 2842 MHz to 180 MHz achieves an average of 42% energy savings with only a 1-6% latency increase. We further provide a use case with an upper-bound analysis of the potential benefits of combining workload-aware model selection with phase-aware DVFS, motivating future energy-efficient LLM inference systems.

研究の動機と目的

  • 持続可能なAIを動機づけるために、推論時のエネルギーとレイテンシに対するモデルサイズ、アーキテクチャ、タスク、ハードウェア設定の影響を理解する。
  • 複数のタスクにわたって、多様なモデル群(GPT-2、Falcon-7B、Mistral-7B、GPT-J-6B、GPT-Neo-2.7B、T5-3B)を評価し、エネルギーと性能のダイナミクスをマッピングする。
  • 入力特性(シーケンス長、バッチサイズ)がエネルギー、スループット、レイテンシに対する影響を調査する。
  • LLM推論のエネルギー効率と性能に対するハードウェアレベルのDVFS影響を評価し、実用的な最適化戦略を特定する。

提案手法

  • 6つの事前学習モデルをNVIDIA A100GPU上でベンチマークする。
  • SQuADv2、BoolQ、XSum、HellaSwag、OpenBookQA、などを含むタスクで、BLEU、F1、精度、エネルギー、スループットなどの指標を用いて評価する。
  • 入力シーケンス長の区間(0-50、51-100、101-150、151-200)と、タスクあたり100クエリで8幅のバッチを用いた場合のバッチサイズ効果を分析する。
  • DVFS設定([210, 405, 615, 810, 1005, 1215, 1410] MHz)を検証して、レイテンシとエネルギーのトレードオフを測定する。
  • nvidia-smiによるリアルタイム電力監視と統計分析を用いて洞察を導出する。

実験結果

リサーチクエスチョン

  • RQ1異なるNLPタスク(テキスト生成、QA、常識推論、要約)が、LLM全体のエネルギー消費と性能にどのように影響するか?
  • RQ2入力特性(シーケンス長、バッチサイズ)は推論時のレイテンシ、スループット、エネルギー効率にどのように影響するか?
  • RQ3ハードウェアDVFS設定が、さまざまなモデルとタスクにおけるエネルギー効率と性能に与える影響は何か?

主な発見

  • 小型モデル(例:GPT-2)は、単純なタスクで一貫してエネルギー消費が少なく、より高いスループットを提供するため、エネルギー制約のあるシナリオに適している。
  • 中〜大型モデル(Falcon-7B、Mistral-7B)は、性能とエネルギーのバランスを取り、SQuADv2やHellaSwagのような複雑なタスクで優れているが、GPT-2よりエネルギーを多く消費する。
  • GPT-J-6BとGPT-Neo-2.7Bは高いエネルギー消費とメモリ要求を示し、多くのタスクで非効率的であることを示している。
  • 複数のタスクで、より高いGPUクロック(1005–1410MHz)へのDVFS調整は、実行時間を短縮して全体のエネルギー消費を低減する。
  • 入力シーケンス長は一般にすべてのモデルでレイテンシとエネルギーを増加させ、特に大きなモデルほど影響を受けやすく、長い文脈にはタスク固有のモデル選択を強調する。
  • バッチサイズを8まで増やすと、BoolQとSquadV2タスクでエネルギー効率が大幅に向上し、レイテンシが低減されることから、バッチ最適化を実用的な手段として強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。