[论文解读] Data Driven Optimization of GPU efficiency for Distributed LLM Adapter Serving
论文提出一个数据驱动的管线,通过最大化每GPU吞吐量、利用数字孪生与ML代理近似,引导贪婪的适配器放置算法,从而最小化用于服务LLM适配器工作负载所需的GPU数量。
Large Language Model (LLM) adapters enable low-cost model specialization, but introduce complex caching and scheduling challenges in distributed serving systems where hundreds of adapters must be hosted concurrently. While prior work has largely focused on latency minimization, resource efficiency through throughput maximization remains underexplored. This paper presents a data-driven pipeline that, for a given workload, computes an adapter placement that serves the workload with the minimum number of GPUs while avoiding request starvation and GPU memory errors. To that end, the approach identifies the maximum feasible throughput attainable on each GPU by leveraging accurate performance predictions learned from real serving behavior. The proposed pipeline integrates three components: (i) a Digital Twin (DT) tailored to LLM-adapter serving, (ii) a distilled machine learning (ML) model trained on DT-generated data, and (iii) a greedy placement algorithm that exploits ML-based performance estimates to maximize GPU efficiency. The DT emulates real system dynamics with high fidelity, achieving below 5% throughput estimation error while executing up to 90 times faster than full LLM benchmarking across both predictable and unpredictable workloads. The learned ML models further accelerate performance estimation with marginal accuracy degradation, enabling scalable optimization. Experimental results demonstrate that the pipeline substantially improves GPU efficiency by reducing the number of GPUs required to sustain target workloads. Beyond GPU efficiency, the pipeline can be adapted to alternative objectives, such as latency minimization, highlighting its versatility for future large-scale LLM serving infrastructures.
研究动机与目标
- 在分布式LLM服务中动机化并形式化适配器缓存问题,以在避免饥饿和内存错误的同时最大化每GPU吞吐量。
- 提出一个数据驱动的管线,整合数字孪生、ML模型与贪婪放置算法以计算高效的适配器分配。
- 证明该管线能够降低目标工作负载所需的GPU数量,并可适应其他目标,如延迟最小化。
- 提供关于LLM-适配器服务中的主要开销的可操作见解和实际配置指南。
提出的方法
- 提出一个三阶段管线:一个用于高保真、快速离线仿真的数字孪生(DT);一个从DT数据中学习性能预测的ML阶段;以及一个利用ML估计来放置适配器并为每个GPU设定A_max的贪婪适配器缓存算法。
- 在DT中建模四个预测组件:Mem_max(基于内存的分批上限)、Lat_sched(调度延迟)、Lat_load(适配器加载延迟)、Lat_model(主干网络加适配器的总额外延迟)。
- 在DT生成的特征上训练两个ML模型(吞吐回归器和饥饿风险分类器),描述工作负载和GPU配置。
- 应用一个细化阶段,将树模型精炼成单一可解释的决策树,并使用优化的Python/Numba代码实现。
- 将适配器缓存问题视为装箱的变体,并通过一个定制的First-Fit Decreasing算法来求解,该算法利用ML预测的吞吐量和饥饿风险来指导放置。
实验结果
研究问题
- RQ1如何在不导致饥饿或内存错误的前提下,最小化用于服务给定异构LLM-适配器工作负载所需的GPU数量?
- RQ2数字孪生是否能以高保真度模拟LLM-适配器服务动态,并加速ML模型的数据生成?
- RQ3对于不同的适配器配置和A_max设置,ML基预测吞吐量和饥饿风险的准确性如何?
- RQ4数据驱动管线是否能在异构工作负载和框架(如带LoRA、S-LoRA的vLLM)下泛化,以提升GPU利用率?
主要发现
- 该管线通过减少维持目标工作负载所需的GPU数量,显著提升了GPU利用率。
- 数字孪生的吞吐量估计误差低于5%,且运行速度比完整LLM基准快至90倍。
- ML预测模型实现可扩展的性能估计,精度略降的情况下仍然引导贪婪放置,接近每GPU的Max_pack。
- 该方法覆盖四大开销(内存使用、计算、加载时间和调度开销),并提供可操作的配置指南。
- 使用带LoRA适配器的vLLM进行的实验表明,该框架具备适应不同目标(包括延迟最小化)的潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。