Skip to main content
QUICK REVIEW

[論文レビュー] ContiguousKV: Accelerating LLM Prefill with Granularity-Aligned KV Cache Management

Jing Zou, Shangyu Wu|arXiv (Cornell University)|Jan 20, 2026
Big Data and Digital Economy被引用数 0
ひとこと要約

ContiguousKV は ContiguousChunk を導入し、粒度揃えの KV キャッシュオフローディングシステムを提供。データ管理とプリューニングを共設計し、2段階の非同期プリフェッチと注意機構主導のキャッシュ管理で Re-Prefill フェーズを高速化する。

ABSTRACT

Efficiently serving Large Language Models (LLMs) with persistent Prefix Key-Value (KV) Cache is critical for applications like conversational search and multi-turn dialogue. Serving a request requires loading the pre-computed prefix KV cache and generating the first token, defined as the Re-Prefill Phase. Offloading this shared prefix cache to secondary storage is essential for memory scalability. Re-Prefill with offloading suffers from severe I/O bottlenecks in two aspects. First, semantic-aware KV cache pruning algorithms select important tokens in fine granularity, while systems manage I/O in coarse, fixed-size blocks, causing severe read amplification. Second, the sequential dependency between identifying important tokens and loading KV cache creates idle I/O and compute bubbles, under-utilizing system resources. This paper proposes extit{ContiguousKV}, a high-performance prefix KV cache offloading system that bridges algorithmic semantics with I/O efficiency to accelerate the Re-Prefill phase. We first introduce extit{ContiguousChunk}, a unified data management granularity that aligns KV cache pruning with I/O operations. All the mechanisms critical for I/O performance are performed at the granularity of ContiguousChunk, thereby eliminating read amplification. By exploiting the high similarity in important ContiguousChunk indices across layers, we propose intra- and inter-period asynchronous prefetching to break the sequential dependency between I/O and compute, effectively eliminating idle bubbles. Finally, we propose attention-guided cache management to retain semantically critical prefix data in memory. Evaluations on Qwen2.5 series models show that ContiguousKV achieves a 3.85x speedup in the Re-Prefill phase over the state-of-the-art offloading system IMPRESS, while maintaining high output quality.

研究の動機と目的

  • 共有プレフィックス LLM サービングにおける読み取り増幅と資源の過小利用を解決し、効率的な Re-Prefill を動機付ける。
  • ContiguousChunk を統一粒度として、KV キャッシュの pruning、ストレージ、I/O を整合させる。
  • I/O と計算をパイプライン化するためのイン・アト・インタ期間( intra-Period )および Inter-Period の非同期プリフェッチを開発する。
  • 意味的に重要なプレフィックスデータを優先する注意機構導入。
  • 複数の KV キャッシュ予算に渡る Qwen2.5 系列モデルでの性能向上を評価する。

提案手法

  • ContiguousChunk をストレージ、退避、プリフェッチの連続トークン単位として定義する。
  • 2 段構成のプリフェッチエンジンを開発:イン・アト期間(Period 内)とインター期間(Periods を跨ぐ)で I/O を計算と連携してパイプライン化する。
  • 重要な ContiguousChunk インデックスのクロスレイヤー・クロス期間の類似性を利用して I/O 待ち時間を隠す。
  • キャッシュスコア S_j = I_j × F_j を用いた注意機構主導のキャッシュポリシーを実装し、GPU/CPU メモリ内の ContiguousChunk を優先する。
  • FlexGen フレームワークへ実装を統合し、IMPRESS および AttentionStore のベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1粒度揃えの ContiguousChunk は Re-Prefill 中の読み取り増幅にどのように影響するか?
  • RQ2イン・アト期間およびインター期間の非同期プリフェッチは Re-Prefill フェーズのアイドル計算/ I/O バブルを減らすことができるか?
  • RQ3注意機構主導のキャッシュ管理は意味的に重要なプレフィックスデータのヒット率を改善するか?
  • RQ4ContiguousKV は Qwen2.5 モデルに対して最先端のオフローディングシステムよりどの程度性能向上を示すか?
  • RQ5さまざまな KV 予算比に対してゲインはどれくらい頑健か?

主な発見

  • ContiguousKV は IMPRESS に比べて Re-Prefill フェーズで 3.85x のスピードアップを達成。
  • ContiguousChunk の使用により I/O を pruning の粒度に合わせて揃えることで読み取り増幅を排除。
  • イン・期間およびインター期間のプリフェッチにより I/O を計算とパイプライン化し、アイドルバブルを削減。
  • 注意機構主導のキャッシュ管理は意味的に重要なデータのキャッシュを改善。
  • Qwen2.5 モデルでの評価は出力品質を維持しつつスピードアップを実現。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。