Skip to main content
QUICK REVIEW

[論文レビュー] Data Driven Optimization of GPU efficiency for Distributed LLM Adapter Serving

Ferran Agullo, Joan Oliveras|arXiv (Cornell University)|Feb 27, 2026
IoT and Edge/Fog Computing被引用数 0
ひとこと要約

データ駆動のパイプラインを提案し、GPU1枚あたりのスループットを最大化してLLMアダプタ workloadを処理するために必要なGPU数を最小化する。デジタルツインとMLサロゲートを用いて貪欲なアダプタ配置アルゴリズムを導く。

ABSTRACT

Large Language Model (LLM) adapters enable low-cost model specialization, but introduce complex caching and scheduling challenges in distributed serving systems where hundreds of adapters must be hosted concurrently. While prior work has largely focused on latency minimization, resource efficiency through throughput maximization remains underexplored. This paper presents a data-driven pipeline that, for a given workload, computes an adapter placement that serves the workload with the minimum number of GPUs while avoiding request starvation and GPU memory errors. To that end, the approach identifies the maximum feasible throughput attainable on each GPU by leveraging accurate performance predictions learned from real serving behavior. The proposed pipeline integrates three components: (i) a Digital Twin (DT) tailored to LLM-adapter serving, (ii) a distilled machine learning (ML) model trained on DT-generated data, and (iii) a greedy placement algorithm that exploits ML-based performance estimates to maximize GPU efficiency. The DT emulates real system dynamics with high fidelity, achieving below 5% throughput estimation error while executing up to 90 times faster than full LLM benchmarking across both predictable and unpredictable workloads. The learned ML models further accelerate performance estimation with marginal accuracy degradation, enabling scalable optimization. Experimental results demonstrate that the pipeline substantially improves GPU efficiency by reducing the number of GPUs required to sustain target workloads. Beyond GPU efficiency, the pipeline can be adapted to alternative objectives, such as latency minimization, highlighting its versatility for future large-scale LLM serving infrastructures.

研究の動機と目的

  • 分散LLMサービングにおけるアダプタCaching問題を動機付け、各GPUあたりのスループットを最大化しつつ飢餓とメモリエラーを回避することを formalize する。
  • デジタルツイン、MLモデル、貪欲な配置アルゴリズムを統合するデータ駆動型パイプラインを提案し、効率的なアダプタ割り当てを計算する。
  • パイプラインが目標 workloads に対して必要GPU数を削減することを示し、レイテンシ最小化など他の目的にも適応可能であることを示す。
  • LLM-アダプタサービングにおける主要なオーバーヘッドと実用的な設定指針に関する実用的洞察を提供する。

提案手法

  • 高忠実度で高速なオフラインシミュレーションのデジタルツイン(DT)を用いた三段階パイプラインを導入する;DTデータから性能予測子を学習するMLフェーズ;ML推定を用いてアダプタを配置しGPU当たりのA_maxを設定する貪欲なアダプタCachingアルゴリズム。
  • DTにおける4つの予測要素をモデル化する:Mem_maxはメモリベースのバッチ処理制限、Lat_schedはスケジューリング遅延、Lat_loadはアダプタのロード遅延、Lat_modelはバックボーン+アダプタのオーバーヘッド遅延。
  • DT生成データを用いて workloadとGPU構成を説明する特徴量上で2つのMLモデル(スループット回帰と飢餓分類器)を学習させる。
  • 解像度を高めるためツリーベースモデルを最適化されたPython/Numbaコードで実装された単一の解釈可能な意思決定木へ蒸留するリファインメントフェーズを適用する。
  • アダプタCaching問題をビンパッキングの変種として扱い、ML予測スル throughputと飢餓リスクを用いて配置を導くFirst-Fit Decreasingアルゴリズムで解く。

実験結果

リサーチクエスチョン

  • RQ1特定の異種LLMアダプタ workloadを飢餓やメモリエラーを起こさず処理するために必要なGPU数を最小化する方法は?
  • RQ2デジタルツインはLLM-アダプタサービングダイナミクスを高忠実度で模倣し、MLモデルのデータ生成を加速できるか?
  • RQ3異なるアダプタ構成とA_max設定に対するスループットと飢餓リスクのML予測子はどれくらい正確か?
  • RQ4データ駆動型パイプラインは異種 workloadsとフレームワーク(例:vLLMとLoRA、S-LoRA)に跨ってGPU効率を向上させる一般化が可能か?

主な発見

  • パイプラインは対象 workloads を維持するために必要なGPU数を削減することでGPU効率を大幅に向上させる。
  • デジタルツインはスループット推定誤差を5%未満に抑え、完全なLLMベンチマークの最大90倍速く動作する。
  • ML予測子はスケーラブルな性能推定を実現し、僅かな精度低下で貪欲な配置を導きMax_packを各GPUに近づける。
  • アプローチは4つの主要なオーバーヘッド(メモリ使用量、計算、ロード時間、スケジューラオーバーヘッド)を考慮し、実用的な設定指針を提供する。
  • LoRAアダプタを用いたvLLMを用いた実験は、遅延最小化など他の目的にも適応できる可能性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。