[논문 리뷰] Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline
이 논문은 응답 길이를 예측하고 유사한 길이로 마이크로 배치를 스케줄링하는 LLM 기반 추론 파이프라인을 도입하여 품질 손실 없이 Vicuna-7B에서 최대 86%의 처리량 이득을 달성한다.
Large language models (LLMs) have revolutionized the field of AI, demonstrating unprecedented capacity across various tasks. However, the inference process for LLMs comes with significant computational costs. In this paper, we propose an efficient LLM inference pipeline that harnesses the power of LLMs. Our approach begins by tapping into the potential of LLMs to accurately perceive and predict the response length with minimal overhead. By leveraging this information, we introduce an efficient sequence scheduling technique that groups queries with similar response lengths into micro-batches. We evaluate our approach on real-world instruction datasets using the LLaMA-based model, and our results demonstrate an impressive 86% improvement in inference throughput without compromising effectiveness. Notably, our method is orthogonal to other inference acceleration techniques, making it a valuable addition to many existing toolkits (e.g., FlashAttention, Quantization) for LLM inference.
연구 동기 및 목표
- LLM이 곧 나올 응답 길이(응답 길이 인지)를 인지할 수 있는지 조사한다.
- 길이 인지를 활용하여 예측 길이가 비슷한 쿼리를 묶어 배치하는 시퀀스 스케줄링 시스템을 설계한다.
- 자 autoregressive LLM 추론에서 중복 연산을 줄이고 성능을 해치지 않으면서 처리량을 개선한다.
- 강건성과 효율성을 높이기 위한 메커니즘(오류 수집, 재계산, 가변 배치 크기)을 제안하여 강건성과 효율성을 향상시킨다.
제안 방법
- 지시 미세 조정된 LLM이 Perception in Advance (PiA) 접근법을 사용하여 응답 길이를 예측할 수 있음을 입증하다.
- 생성으로부터 예측을 분리하기 위해 LoRA 기반 학습으로 지시 미세 조정 기반 길이 예측기를 파이프라인에 추가한다.
- 예측 길이로 쿼리를 그룹화하고 잘못된 예측을 처리하기 위해 실패 수집(Failure Collection)과 재계산(Recombination, FCR)을 활용하는 시퀀스 스케줄링 시스템을 개발한다.
- 예측 길이에 맞춰 배치 크기를 조정하고 메모리 제약을 관리하기 위해 가변 배치 크기(VBS)를 도입한다.
- 최대 길이(네 번 생성의 최대 길이)를 예측하는 빈닝 전략을 사용하여 실패 재수집을 줄인다.
- 80GB A100에서 Vicuna-7B와 함께 실제 지시 데이터셋으로 평가하고 vanilla 배치 추론과 비교하여 처리량을 측정한다.
실험 결과
연구 질문
- RQ1LLM이 자기회귀 디코딩 이전에 응답 길이를 신뢰성 있게 예측할 수 있는가(PiA 대 PO)?
- RQ2응답 길이 인지를 활용한 시퀀스 스케줄링이 품질 저하 없이 추론 처리량을 향상시키는가?
- RQ3강건하고 확장 가능한 LLM 추론을 위한 완화책(FCR, VBS, 빈닝)은 어떤 효과가 있는가?
- RQ4제안된 접근법이 기존 가속 기법(예: Flash Attention, Quantization)과 어떻게 상호작용하는가?
주요 결과
- PiA 기반 길이 예측기가 상당한 처리량 이점을 가능하게 하며, 지시 미세 조정 예측기(mean 또는 max 길이 변형 평가 시) 사용 시 vanilla 추론 대비 86% 향상을 달성했다.
- 지시 미세 조정 길이 예측은 비지시 조정 또는 단순 풀링/MLP 접근 방식에 비해 응답 길이 예측에서 현저하게 우수하다.
- 빈닝, 실패 수집 및 재계산(FCR), 가변 배치 크기(VBS)의 조합이 다양한 데이터셋과 설정에서 가장 큰 처리량 이득을 가져온다.
- 이 접근법은 다른 추론 가속 기법과 직교적(상호 배타적)으로 작용하여 기존 도구 키트(예: FlashAttention, Quantization)를 보완할 수 있음을 시사한다.
- Vicuna-7B에 대한 실험은 실제 지시 데이터셋에서 생성 품질이 허용되거나 유지되면서 처리량이 개선되었음을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.