Skip to main content
QUICK REVIEW

[論文レビュー] Infinite-LLM: Efficient LLM Service for Long Context with DistAttention and Distributed KVCache

Bin Lin, Chen Zhang|arXiv (Cornell University)|Jan 5, 2024
Topic Modeling被引用数 6
ひとこと要約

DistAttention と DistKV-LLM を導入し、データセンターのGPU/CPUを横断する分散KVキャッシュ管理によって長文脈を持つクラウド型LLM提供を効率化し、スループットを向上させ、はるかに長い文脈の実現を可能にします。

ABSTRACT

Large Language Models (LLMs) demonstrate substantial potential across a diverse array of domains via request serving. However, as trends continue to push for expanding context sizes, the autoregressive nature of LLMs results in highly dynamic behavior of the attention layers, showcasing significant differences in computational characteristics and memory requirements from the non-attention layers. This presents substantial challenges for resource management and performance optimization in service systems. Existing static model parallelism and resource allocation strategies fall short when dealing with this dynamicity. To address the issue, we propose Infinite-LLM, a novel LLM serving system designed to effectively handle dynamic context lengths. Infinite-LLM disaggregates attention layers from an LLM's inference process, facilitating flexible and independent resource scheduling that optimizes computational performance and enhances memory utilization jointly. By leveraging a pooled GPU memory strategy across a cluster, Infinite-LLM not only significantly boosts system throughput but also supports extensive context lengths. Evaluated on a dataset with context lengths ranging from a few to 2000K tokens across a cluster with 32 A100 GPUs, Infinite-LLM demonstrates throughput improvement of 1.35-3.4x compared to state-of-the-art methods, enabling efficient and elastic LLM deployment.

研究の動機と目的

  • 非常に長い文脈長を持つクラウド型LLMサービスのメモリと計算の課題に対処する。
  • データセンターの全メモリ資源を活用するための分散KVキャッシュ管理とアテンション処理を提案する。
  • 頻繁なライブマイグレーションや過剰プロビジョニングを伴わず、動的でスケーラブルなリソース割り当てを可能にする。
  • 長文ベンチマークを用いたマルチノードクラウド構成でのシステム性能を評価する。

提案手法

  • DistAttention を提案し、KVキャッシュを rBlocks に分割し、分散計算のための Micro Attentions を構成する。
  • rManagerとgManagerを介して分散GPU/CPU間のメモリ使用を調整する DistKV-LLM を開発する。
  • デットグラフアプローチに基づいてブロックを呼び戻し交換することでメモリ断片化を緩和する DGFM を導入する。
  • グローバルデット台帳を用いた拡張性があり整合性のあるクロスインスタンスメモリ管理の契約プロトコルを定義する。
  • プリフィルと自己回帰フェーズ中の通信オーバーヘッドを最小化するため、計算とリモートデータ転送を重畳させる。

実験結果

リサーチクエスチョン

  • RQ1LLMサービスで非常に長い文脈長をサポートするために、KVキャッシュ管理をデータセンター全体に分散させるにはどうすればよいか。
  • RQ2DistAttention と DistKV-LLM はクラウドLLMサービスにおけるエンドツーエンドのスループットと文脈長のスケーラビリティを改善できるか。
  • RQ3分散KVキャッシュシステムで、メモリ整合性、局所性、オーバーヘッド低減を保証するメカニズムは何か。
  • RQ4長文脈タスクのためにマルチノードGPUクラスターへ展開した場合のパフォーマンス利得は何か。

主な発見

  • 1.03-2.4x end-to-end throughput improvements over state-of-the-art on 32 NVIDIA A100 GPUs.
  • Support for 2-19x longer context lengths than current state-of-the-art LLM service systems.
  • Validated across 18 datasets with context lengths up to 1,900K.
  • Efficiently utilizes distributed GPU/CPU memory to handle long-context KV caches.
  • Reduced data transfer volume in attention computation by enabling remote macro-attentions.
  • Demonstrates robust scalability from 2 to 32 instances in a cloud environment.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。