[논문 리뷰] A Pipelined Collaborative Speculative Decoding Framework for Efficient Edge-Cloud LLM Inference
PicoSpec은 학습 없이 비동기적으로 작동하는 에지-클라우드 추측 디코딩 프레임워크를 도입하여 에지에서의 초안 작성과 클라우드에서의 검증을 분리하고, 병렬 초안 작성과 분리된 거부 샘플링을 사용해 WAN 지연을 가리고 최대 2.9배의 속도향상을 달성합니다.
Recent advancements and widespread adoption of Large Language Models (LLMs) in both industry and academia have catalyzed significant demand for LLM serving. However, traditional cloud services incur high costs, while on-device inference alone faces challenges due to limited resources. Edge-cloud collaboration emerges as a key research direction to combine the strengths of both paradigms, yet efficiently utilizing limited network bandwidth while fully leveraging and balancing the computational capabilities of edge devices and the cloud remains an open problem. To address these challenges, we propose Pipelined Collaborative Speculative Decoding Framework (PicoSpec), a novel, general-purpose, and training-free speculative decoding framework for LLM edge-cloud collaborative inference. We design an asynchronous pipeline that resolves the mutual waiting problem inherent in vanilla speculative decoding within edge collaboration scenarios, which concurrently executes a Small Language Model (SLM) on the edge device and a LLM in the cloud. Meanwhile, to mitigate the significant communication latency caused by transmitting vocabulary distributions, we introduce separate rejection sampling with sparse compression, which completes the rejection sampling with only a one-time cost of transmitting the compressed vocabulary. Experimental results demonstrate that our solution outperforms baseline and existing methods, achieving up to 2.9 speedup.
연구 동기 및 목표
- 제약된 자원을 가진 에지 장치에서 에지-클라우드 협업을 통해 효율적인 LLM 추론을 촉진한다.
- 에지 초안 작성과 클라우드 검증을 분리하는 학습 없는 비동기 파이프라인을 개발한다.
- 별도 거부 샘플링 메커니즘과 희소 압축으로 통신 오버헤드를 감소시킨다.
제안 방법
- Parallel Drafter, Rejection Sampler, Speculative KV Cache, and Zero-Copy Communicator로 구성된 네 가지 에지 모듈을 갖춘 PicoSpec를 제안한다.
- Verifier, Request Handler, KV Cache, and Zero-Copy Communicator로 구성된 네 가지 클라우드 모듈을 구현한다.
- 에지 초안 작성과 클라우드 검증을 겹치게 하여 파이프라인 버블을 최소화하기 위해 Parallel Drafting과 Fast Verification을 활성화한다.
- Top-K 희소 압축이 적용된 Separate Rejection Sampling을 사용하여 고확률 후보만 전송하고 재훈련 없이 대역폭을 회복한다.
- 오류 예측 후 상태 일관성을 유지하기 위한 지연 시간 인지 롤백 메커니즘을 제공한다.
- 종단 간 처리량을 분석하고 지연 면역 특성을 도출하기 위한 확률적 성능 모델을 제공한다.

실험 결과
연구 질문
- RQ1고지연 WAN 환경에서 진정한 병렬 추측 디코딩을 가능하게 하려면 에지와 클라우드 구성 요소를 어떻게 분리할 수 있는가?
- RQ2학습 없는 비동기 파이프라인이 네트워크 지연을 숨기면서 에지-클라우드 LLM 추론에서 모델 일반성을 유지할 수 있는가?
- RQ3희소 압축이 적용된 별도 거부 샘플링 방식이 정확도를 희생하지 않으면서 업링크/다운링크 대역폭을 줄일 수 있는가?
- RQ4다양한 초안 길이와 수용률에서 PicoSpec의 이론적 및 실험적 처리량 이득은 무엇인가?
주요 결과
- PicoSpec은 고지연 에지-클라우드 환경에서 기준 대비 최대 2.9×의 속도 향상을 달성한다.
- Asynchronous pipelining (Parallel Drafting)은 에지 대기 시간을 제거하고 에지 초안 작성과 클라우드 검증을 겹치게 하여 처리량이 RTT가 아닌 에지 초안 작성 속도에 의해 제한되게 한다.
- Fast Verification은 전체 초안 도착 전에 클라우드 준비를 가능하게 하여 파이프라인 버블을 더 줄인다.
- Separate Rejection Sampling with Top-K sparse compression은 매 라운드 하향 데이터를 O(V)에서 O(K)로 감소시켜 통신 오버헤드를 크게 줄인다.
- Ablation 연구에서 asynchronous pipelining, Fast Verification, 및 Split-Rej가 각각 중요하며, w/o Para-draft가 가장 큰 처리량 저하를 야기한다.
- Draft length optimization (n) 은 n=4에서 최대 처리량을 달성하고, 실용적 범위의 n에서 강건한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.