Skip to main content
QUICK REVIEW

[논문 리뷰] MineDraft: A Framework for Batch Parallel Speculative Decoding

Zhenwei Tang, Arun Verma|arXiv (Cornell University)|2026. 02. 24.
Natural Language Processing Techniques인용 수 0
한 줄 요약

MineDraft는 두 개의 동시 배치를 사용하여 초안 작성과 검증을 겹치도록 배치 병렬 speculative decoding(PSD)을 도입하여 표준 speculative decoding에 비해 처리량과 지연 시간에서 상당한 개선을 달성합니다.

ABSTRACT

Speculative decoding (SD) accelerates large language model inference by using a smaller draft model to propose draft tokens that are subsequently verified by a larger target model. However, the performance of standard SD is often limited by the strictly sequential execution of these drafting and verification stages. To address this, this paper proposes MineDraft, a batch parallel speculative decoding (PSD) framework designed to effectively hide drafting latency by overlapping it with verification. Our theoretical analysis shows that PSD is substantially more efficient than standard SD. MineDraft realizes the PSD through a novel batch-parallel design that maintains two batches of requests, overlapping drafting for one batch with verification for the other. Our experimental results show significant improvements of MineDraft in both throughput (up to 75%) and end-to-end latency (up to 39%) over standard SD. Furthermore, we have implemented MineDraft as a plugin for vLLM, demonstrating its practicality for production-ready inference systems.

연구 동기 및 목표

  • 스펙ulative decoding에서 초안 작성 지연을 줄여 대형 언어 모델 추론 속도를 높이기 위한 동기를 부여한다.
  • 초안 작성과 검증을 겹치게 하는 배치-병렬 PSD 프레임워크를 제안한다.
  • 현실적인 가정하에 PSD가 표준 SD에 비해 효율성 이득을 이론적으로 분석한다.
  • 여러 모델과 데이터셋에 걸쳐 평가하고 MineDraft를 vLLM 플러그인으로 구현하여 실용성을 입증한다.

제안 방법

  • 두 개의 요청 배치를 유지하고 그 사이에서 초안 작성/검증을 교대로 수행하는 새로운 배치-병렬 설계를 도입한다.
  • 초안 모델을 별도 GPU에서 실행하고 직접 GPU-간 커뮤니케이션으로 토큰을 대상 모델로 전송한다.
  • 완만한 가정하에서 PSD가 엔드-투-엔드 지연 감소를 최소 37% 달성함을 보이는 이론적 분석을 제공한다.
  • MineDraft가 표준 SD에 비해 평균 처리량 증가 최대 75% 및 엔드-투-엔드 지연 감소 최대 39%를 달성함을 보여준다.
  • 생산 준비 추론 라이브러리인 vLLM의 플러그인으로 MineDraft를 통합하고 연속 배치 및 PagedAttention을 지원한다.
Figure 1: MineDraft parallelizes drafting and verification: a draft model generates tokens while the target model simultaneously verifies the previously generated draft tokens, thereby hiding drafting latency and improving overall inference throughput.
Figure 1: MineDraft parallelizes drafting and verification: a draft model generates tokens while the target model simultaneously verifies the previously generated draft tokens, thereby hiding drafting latency and improving overall inference throughput.

실험 결과

연구 질문

  • RQ1초안 작성 지연을 숨기기 위해 초안 작성과 검증을 어떻게 중첩(overlap)시킬 수 있는가?
  • RQ2현실적인 초안 품질 곡선 하에서 배치 PSD의 이론적 지연 이점은 표준 SD에 비해 어떤가?
  • RQ3생산 환경과 유사한 설정에서 두 배치 MineDraft 설계가 다양한 모델과 초안 작성 전략에서 어떻게 작동하는가?

주요 결과

  • PSD는 초안 작성/검증 역학의 특정 조건하에서 엔드-투-엔드 지연을 최소 37% 감소시킬 수 있다.
  • MineDraft는 모델 설정과 데이터셋 전반에 걸쳐 표준 SD 대비 평균 처리량 증가 최대 75%를 달성한다.
  • 최고 기준 방법 대비 최대 65.02%의 처리량 향상이 보고된다.
  • 초안 모델을 별도의 GPU에 배치하여 메모리 경합을 완화하고 병렬 초안을 가능하게 한다.
  • EAGLE이나 TETRIS와 같은 기존 초안 작성 전략과 MineDraft를 통합하면 추가 성능 이득이 발생한다.
  • 구현된 vLLM 플러그인은 실용적 배포 가능성과 PagedAttention와의 호환성을 입증한다.
Figure 2: Architecture overview of MineDraft . (Left) The Scheduler manages request life-cycles and batch IDs by coordinating with the Batch Manager , which maintains two batches to enable parallelism in MineDraft . (Right) Parallel execution timeline of the Drafter and Verifier across speculative d
Figure 2: Architecture overview of MineDraft . (Left) The Scheduler manages request life-cycles and batch IDs by coordinating with the Batch Manager , which maintains two batches to enable parallelism in MineDraft . (Right) Parallel execution timeline of the Drafter and Verifier across speculative d

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.