[논문 리뷰] Infinite-LLM: Efficient LLM Service for Long Context with DistAttention and Distributed KVCache
DistAttention과 DistKV-LLM을 도입하여 데이터센터 GPU/CPU 간 분산 KV 캐시 관리를 통해 긴 컨텍스트를 갖춘 클라우드 기반 LLM 서빙을 가능하게 하고, 처리량을 개선하며 훨씬 더 긴 컨텍스트를 가능하게 한다.
Large Language Models (LLMs) demonstrate substantial potential across a diverse array of domains via request serving. However, as trends continue to push for expanding context sizes, the autoregressive nature of LLMs results in highly dynamic behavior of the attention layers, showcasing significant differences in computational characteristics and memory requirements from the non-attention layers. This presents substantial challenges for resource management and performance optimization in service systems. Existing static model parallelism and resource allocation strategies fall short when dealing with this dynamicity. To address the issue, we propose Infinite-LLM, a novel LLM serving system designed to effectively handle dynamic context lengths. Infinite-LLM disaggregates attention layers from an LLM's inference process, facilitating flexible and independent resource scheduling that optimizes computational performance and enhances memory utilization jointly. By leveraging a pooled GPU memory strategy across a cluster, Infinite-LLM not only significantly boosts system throughput but also supports extensive context lengths. Evaluated on a dataset with context lengths ranging from a few to 2000K tokens across a cluster with 32 A100 GPUs, Infinite-LLM demonstrates throughput improvement of 1.35-3.4x compared to state-of-the-art methods, enabling efficient and elastic LLM deployment.
연구 동기 및 목표
- 매우 긴 컨텍스트 길이를 갖는 클라우드 기반 LLM 서비스의 메모리 및 계산 문제를 해결한다.
- 분산 KV 캐시 관리와 어텐션 처리를 제안하여 모든 데이터센터 메모리 자원을 활용한다.
- 자주적인 라이브 마이그레이션이나 과도한 프로비저닝 없이도 동적이고 확장 가능한 자원 할당을 가능하게 한다.
- 긴 컨텍스트 벤치마크를 통한 다중 노드 클라우드 설정에서 시스템 성능을 평가한다.
제안 방법
- KV 캐시를 rBlocks로 분할하고 분산 계산을 위한 Micro Attentions를 구성하는 DistAttention을 제안한다.
- rManager와 gManager를 통해 분산 GPU/CPU 간 메모리 사용을 조정하는 DistKV-LLM을 개발한다.
- Debt-graph 기반의 대출 메모리 재구성 및 교환으로 메모리 단편화를 완화하는 DGFM을 도입한다.
- 확장 가능하고 일관된 인스턴스 간 메모리 관리를 위한 글로벌 부채 원장 계약 프로토콜을 정의한다.
- prefill 및 자동회귀 단계에서의 통신 오버헤드를 최소화하기 위해 계산과 원격 데이터 전송을 중첩한다.
실험 결과
연구 질문
- RQ1KV 캐시 관리를 데이터 센터 전체에 분산시켜 LLM 서빙의 매우 긴 컨텍스트 길이를 지원하려면 어떻게 해야 하는가?
- RQ2DistAttention과 DistKV-LLM이 클라우드 LLM 서비스의 엔드 투 엔드 처리량 및 컨텍스트 길이 확장성을 개선할 수 있는가?
- RQ3분산 KV 캐시 시스템에서 메모리 일관성, 지역성 및 낮은 오버헤드를 보장하는 메커니즘은 무엇인가?
- RQ4다중 노드 GPU 클러스터에서 긴 컨텍스트 작업을 배치할 때의 성능 향상은 어느 정도인가?
주요 결과
- 1.03-2.4x 엔드 투 엔드 처리량 향상, 32대 NVIDIA A100 GPU 대비 최신 상태의 최첨단 대비.
- 현재의 최첨단 LLM 서비스 시스템보다 2-19배 더 긴 컨텍스트 길이를 지원.
- 컨텍스트 길이가 최대 1,900K인 18개 데이터 세트에서 검증.
- 분산 GPU/CPU 메모리를 효율적으로 활용하여 긴 컨텍스트 KV 캐시를 처리.
- 원격 매크로 어텐션을 가능하게 하여 어텐션 계산의 데이터 전송량을 감소.
- 클라우드 환경에서 2에서 32 인스턴스로의 강력한 확장성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.