Skip to main content
QUICK REVIEW

[論文レビュー] Cost-Efficient Multimodal LLM Inference via Cross-Tier GPU Heterogeneity

Donglin Yu|arXiv (Cornell University)|Mar 13, 2026
Parallel Computing and Optimization Techniques被引用数 0
ひとこと要約

要約: 本論文は、モダリティ境界でのモダリティ分割によって多模態LLM推論のデータ転送をGB級KVキャッシュからMB級埋め込みへと削減し、クロスティアの異種サービングを可能にするとともに、HeteroServeを介して実用的なコストとスループットの利点を示す。

ABSTRACT

Multimodal large language model (MLLM) inference splits into two phases with opposing hardware demands: vision encoding is compute-bound, while language generation is memory-bandwidth-bound. We show that under standard transformer KV caching, the modality boundary (between vision encoder and language model) minimizes cross-device transfer among all partition points that preserve standard stage-based execution. Partitioning here reduces transfer complexity from $O(L * s_ctx)$ bytes (GB-scale KV caches under stage-level disaggregation) to $O(N_v * d)$ bytes (MB-scale embeddings), an O(L) reduction where L is the transformer depth. The result holds across attention mechanisms (MHA/GQA), dynamic vision resolutions, and model scales, and the advantage grows as models deepen. A direct implication is that existing stage-level disaggregation systems are constrained to high-bandwidth interconnects (e.g., NVLink), whereas modality-level disaggregation enables cross-tier heterogeneous serving over commodity PCIe. A closed-form cost model shows that heterogeneous deployment is cost-optimal under phase-separable workloads (predicts 31.4% savings; observed 40.6%). We build HeteroServe, a phase-aware runtime with modality-level partitioning and cross-tier scheduling, and evaluate it on LLaVA-1.5-7B and Qwen2.5-VL against vLLM v0.3.0. On identical 4xA100 hardware, engine optimizations raise throughput by up to 54%. Under a fixed budget, a heterogeneous cluster (\$38k) improves Tokens/\$ by 37% over a homogeneous baseline (\$64k) without degrading latency.

研究の動機と目的

  • MLLMsにおけるビジョンエンコードと言語デコードのアーキテクチャ的不整合を動機づけ、クロスデバイス転送コストを定量化する。
  • 標準KVキャッシュ下でモダリティ境界の分割がクロスデバイスデータ転送を最小化することを理論的に確立する(定理1)。
  • モダリティレベルの分割とクロスティアスケジューリングを活用するフェーズ認識ランタイム(HeteroServe)を開発する。
  • 異種デプロイメントがコスト的に最適となる条件を閉形式のコストモデルとして提供し、実ハードウェアで検証する。

提案手法

  • MLLM推論フェーズとハードウェア上のボトルネックを特徴付ける(ビジョンは計算ボトルネック、言語はメモリボトルネック)。
  • ステージレベルKVとモダリティレベル埋め込みの転送サイズ式を導出し、転送比スケーリングR = D_KV / D_embを証明する。
  • 異種デプロイメントのコストモデルを提案し、コスト削減条件を導出する(式7および式8)。
  • 埋め込みのみ転送、クロスタイプのワークスティール、CUDA-Graph加速デコードを備えたHeteroServeを設計・実装する。
  • PCIeとNVLink下で、LLaVA-1.5-7BおよびQwen2.5-VLをvLLM v0.3.0と比較し、スループット、遅延、コストを評価する。
Figure 1 : (a) Cost saving $\Delta_{\text{cost}}$ (Eq. 8 ) as a function of the vision-to-language time ratio $\rho$ for different price ratios $\gamma$ . The RTX 4090/A100 operating point ( $\gamma{=}0.19$ , $\rho{=}0.63$ ) is marked. (b) Transfer ratio $R$ (Eq. 2 ) across model depths, confirming
Figure 1 : (a) Cost saving $\Delta_{\text{cost}}$ (Eq. 8 ) as a function of the vision-to-language time ratio $\rho$ for different price ratios $\gamma$ . The RTX 4090/A100 operating point ( $\gamma{=}0.19$ , $\rho{=}0.63$ ) is marked. (b) Transfer ratio $R$ (Eq. 2 ) across model depths, confirming

実験結果

リサーチクエスチョン

  • RQ1モダリティ境界での分割は、標準KVキャッシュ下でクロスデバイス転送を最小化するか?MLLM間で。
  • RQ2コモディティなインターコネクト上で、クロスティアの異種デプロイメントは実用的なコストとスループット効果を提供し得るか?
  • RQ3モダリティレベルの分離を使用した場合の転送効率と経済コストの理論的・実証的利得はどの程度か?
  • RQ4HeteroServeのようなフェーズ認識ランタイムは、動的ビジョントークンと多様なアテンション機構を備えた実ハードウェア上で実現可能で有益か?

主な発見

  • モダリティレベルの分離により、クロスデバイス転送がO(L)からMBスケールの埋め込みへと削減され、報告されたアーキテクチャ(MHA/GQA)でR比は78×–196×。
  • 閉形式のコストモデルは異種デプロイメントで31.4%の削減を予測し、実証値として40.6%の削減を観測。
  • エンジン最適化とHeteroServeにより、同一4×A100ハードウェアでベースラインより最大54%のスループット向上を実現。
  • 固定予算下で、異種クラスター(38千ドル)は同等の基準(64千ドル)よりトークンコストあたり37%多く提供し、遅延劣化なし。
  • LLaVA-1.5-7BおよびQwen2.5-VLの実証評価は、PCIeを用いたモダリティレベルのクロスティアサービングの実用性を示す。
Figure 2 : HeteroServe architecture. Consumer GPUs (RTX 4090) handle vision encoding and transfer lightweight visual embeddings ( ${\sim}4.5$ MB) via PCIe to datacenter GPUs (A100), which perform language generation. When the consumer pool is idle, cross-type work stealing allows consumer GPUs to as
Figure 2 : HeteroServe architecture. Consumer GPUs (RTX 4090) handle vision encoding and transfer lightweight visual embeddings ( ${\sim}4.5$ MB) via PCIe to datacenter GPUs (A100), which perform language generation. When the consumer pool is idle, cross-type work stealing allows consumer GPUs to as

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。