Skip to main content
QUICK REVIEW

[論文レビュー] SideQuest: Model-Driven KV Cache Management for Long-Horizon Agentic Reasoning

Sanjay Kariyappa, G. Edward Suh|arXiv (Cornell University)|Feb 26, 2026
Semantic Web and Ontologies被引用数 0
ひとこと要約

SideQuestは、長期的なエージェント的推論中に古くなったKVキャッシュエントリを追い出すモデル駆動の補助的メモリ管理スレッドを可能にし、最適化精度の損失を最小限に抑えつつピークメモリ使用量を削減します。

ABSTRACT

Long-running agentic tasks, such as deep research, require multi-hop reasoning over information distributed across multiple webpages and documents. In such tasks, the LLM context is dominated by tokens from external retrieval, causing memory usage to grow rapidly and limiting decode performance. While several KV cache compression techniques exist for long-context inputs, we find that existing heuristics fail to support multi-step reasoning models effectively. We address this challenge with SideQuest -- a novel approach that leverages the Large Reasoning Model (LRM) itself to perform KV cache compression by reasoning about the usefulness of tokens in its context. To prevent the tokens associated with this management process from polluting the model's memory, we frame KV cache compression as an auxiliary task executed in parallel to the main reasoning task. Our evaluations, using a model trained with just 215 samples, show that SideQuest reduces peak token usage by up to 65% on agentic tasks with minimal degradation in accuracy, outperforming heuristic-based KV cache compression techniques.

研究の動機と目的

  • 長期的なエージェント的推論におけるKVキャッシュの増大によるメモリボトルネックを動機づける。
  • 主推論と並列して動作するモデル駆動のKVキャッシュ排除メカニズムを提案する。
  • 意味論的で自己案内的な排除が、動的なマルチステップタスクにおいて固定ヒューリスティクスを上回ることを示す。
  • 並列補助推論が精度を維持しつつピークメモリとメモリリードを大幅に削減することを示す。

提案手法

  • SideQuestを導入し、メインのReAct推論プロセスと並行して補助的なメモリ管理スレッドを実行する。
  • LRM自体を使用して陳腐化推論を行い、KVキャッシュエントリの削除コマンド(例:del_cursors)を生成する。
  • Memory management modeという自分のトリガーフレーズを持つ補助タスクとしてメモリ管理を位置づけ、 hindsightに基づく注釈データを用いて訓練する。
  • 2つのトレースで訓練データを生成する:コア推論を保持するためのメイントレース(ロジット蒸留)と排除を教える補助トレース(クロスエントロピー)。
  • トレンドを組み合わせた共同最適化によって、メイントレースの蒸留損失と補助トレースのクロスエントロピー損失を同時に最適化し、トリガーベースの補助動作を可能にする。

実験結果

リサーチクエスチョン

  • RQ1モデル駆動の補助プロセスは、多段階のエージェント的タスクで陳腐化したツール出力を効果的に識別・排除できるか。
  • RQ2並列補助推論は、精度を大きく損なうことなくピーク KVキャッシュ使用量とメモリリードを削減するか。
  • RQ3SideQuestは動的で長い文脈の研究様 workloadsにおけるヒューリスティックなKVキャッシュ排除手法とどう比較されるか。

主な発見

  • SideQuestは未圧縮ベースラインと比較してピークトークン使用量を56-65%削減する。
  • SideQuestはベースラインと比較してKVキャッシュメモリリードを53-71%削減する。
  • 精度低下は小さく、FRAMESで最大2%、BrowseCompで最大5%で、ヒューリスティックベースラインを上回る。
  • サービングベンチマークではSideQuestがシステムスループットを83.9%向上させ、総実行時間を36.8%削減する。
  • SideQuestはほぼ完了不能率をほぼゼロに維持し、いくつかのヒューリスティックベースラインが引き起こす高い失敗率とは異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。