Skip to main content
QUICK REVIEW

[论文解读] Towards Greener LLMs: Bringing Energy-Efficiency to the Forefront of LLM Inference

Jovan Stojkovic, Esha Choukse|arXiv (Cornell University)|Mar 29, 2024
Metallurgical Processes and Thermodynamics被引用 13
一句话总结

本文表征了大规模语言模型推理中的能效控制点,分析它们对延迟、吞吐量和能耗的影响,并为在不牺牲性能的前提下实现可持续、成本效益更高的 LLM 部署提供见解。

ABSTRACT

With the ubiquitous use of modern large language models (LLMs) across industries, the inference serving for these models is ever expanding. Given the high compute and memory requirements of modern LLMs, more and more top-of-the-line GPUs are being deployed to serve these models. Energy availability has come to the forefront as the biggest challenge for data center expansion to serve these models. In this paper, we present the trade-offs brought up by making energy efficiency the primary goal of LLM serving under performance SLOs. We show that depending on the inputs, the model, and the service-level agreements, there are several knobs available to the LLM inference provider to use for being energy efficient. We characterize the impact of these knobs on the latency, throughput, as well as the energy. By exploring these trade-offs, we offer valuable insights into optimizing energy usage without compromising on performance, thereby paving the way for sustainable and cost-effective LLM deployment in data center environments.

研究动机与目标

  • 由于数据中心能耗上升,推动能效成为 LLM 推理服务的首要目标。
  • 表征工作负载类型、批处理、模型并行性和 GPU 频率如何影响延迟、吞吐量和能耗。
  • 识别在性能 SLO 下实现能效 LLM 服务的实际控制点与权衡。
  • 概述实现能效 LLM 推理框架及编排策略的要求。

提出的方法

  • 在 Llama-2 70B 上使用 NVIDIA DGX-H100,配合 vLLM 作为服务平台进行实验。
  • 在不同工作负载下,将 GPU 频率从 800 MHz 变化到 1980 MHz,以研究延迟、吞吐量和能耗。
  • 在平台层面探索三个能效控制点:工作负载类型、批处理和模型并行性(张量并行)。
  • 默认使用 8 路张量并行;在不同配置下分析 TTFT、TBT、吞吐量以及功率/能耗。
  • 分析由输入/输出令牌长度定义的工作负载桶(Small、Medium、Large)以及不同批处理大小的影响。

实验结果

研究问题

  • RQ1工作负载特征(输入/输出长度)在频率缩放下如何影响 TTFT、TBT、吞吐量和能耗?
  • RQ2在现实 LLM 工作负载下改变张量并行性(TP2、TP4、TP8)时存在哪些能耗-性能权衡?
  • RQ3批处理如何与频率缩放交互,以影响 LLM 推理的延迟和能耗?
  • RQ4在典型 SLO 下,是否能够在不损害延迟或吞吐量的前提下实现能效配置?

主要发现

  • 降低 GPU 频率在大多数配置下可实现约 20% 的功率下降,同时不影响延迟或吞吐量。
  • 更长的输入增加预热压力,在频率上限下的节流更明显,而解码阶段仍受内存带宽限制,对频率变化的敏感性较低。
  • 张量并行降低 TTFT 和 TBT,但由于通信开销增加而收益递减;TP2 常常在每请求成本方面更有利,在某些条件下可能比 TP8 更节能。
  • 批处理与频率缩放相互作用;较大批量可提升吞吐量,但可能错过 TTFT 的 SLO;在较低频率下使用中等批量可实现显著的能耗节省(例如,~1.6x 频率 vs 2.0x)且吞吐量损失较小。
  • 能效策略表明,针对功率、能量和性能的优化会产生不同的最优配置,某些平台层决策可以在不影响性能的情况下提高能效。
  • 在中等负载场景下,当节点级访问被限定为完整的 DGX-H100 节点时,TP8 可能比 TP2 更节能,突出实际部署中的地区差异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。