Skip to main content
QUICK REVIEW

[论文解读] SideQuest: Model-Driven KV Cache Management for Long-Horizon Agentic Reasoning

Sanjay Kariyappa, G. Edward Suh|arXiv (Cornell University)|Feb 26, 2026
Semantic Web and Ontologies被引用 0
一句话总结

SideQuest 让模型驱动的辅助内存管理线程在长时程的代理推理中驱逐过时的 KV-cache 条目,降低峰值内存使用,同时对准确性几乎无损失。

ABSTRACT

Long-running agentic tasks, such as deep research, require multi-hop reasoning over information distributed across multiple webpages and documents. In such tasks, the LLM context is dominated by tokens from external retrieval, causing memory usage to grow rapidly and limiting decode performance. While several KV cache compression techniques exist for long-context inputs, we find that existing heuristics fail to support multi-step reasoning models effectively. We address this challenge with SideQuest -- a novel approach that leverages the Large Reasoning Model (LRM) itself to perform KV cache compression by reasoning about the usefulness of tokens in its context. To prevent the tokens associated with this management process from polluting the model's memory, we frame KV cache compression as an auxiliary task executed in parallel to the main reasoning task. Our evaluations, using a model trained with just 215 samples, show that SideQuest reduces peak token usage by up to 65% on agentic tasks with minimal degradation in accuracy, outperforming heuristic-based KV cache compression techniques.

研究动机与目标

  • 在长时程代理推理中因 KV 缓存增长而产生的内存瓶颈产生动机。
  • 提出一个模型驱动的 KV 缓存逐出机制,作为与主推理并行的辅助任务运作。
  • 证明语义化、自我引导的逐出相较于固定启发式在动态多步任务中表现更好。
  • 展示并行辅助推理在保持准确性的同时显著降低峰值内存和内存读取量。

提出的方法

  • 提出 SideQuest,在与主 ReAct 推理过程并行运行的辅助内存管理线程。
  • 使用 LRM 本身执行过时性推理并生成对 KV 缓存条目的删除指令(如 del_cursors)。
  • 将内存管理框架化为一个具有自有触发短语(Memory management mode)的辅助任务,并通过事后注释数据进行训练。
  • 通过两条轨迹生成训练数据:主轨迹用于保留核心推理(logit distillation),辅助轨迹用于教授逐出(交叉熵)。
  • 通过联合优化进行训练,将主轨迹的蒸馏损失与辅助轨迹的交叉熵损失结合,以实现触发式的辅助行为。

实验结果

研究问题

  • RQ1模型驱动的辅助过程是否能够在多步代理任务中有效识别并逐出过时的工具输出?
  • RQ2并行的辅助推理是否在不显著损害准确性的情况下减少峰值 KV 缓存使用和内存读取?
  • RQ3在动态、长上下文的研究类工作负载中,SideQuest 与基于启发式的 KV 缓存逐出方法相比有何表现?

主要发现

  • SideQuest 将峰值 token 使用量相较未压缩基线降低了 56-65%。
  • SideQuest 将 KV 缓存内存读取量相较基线降低了 53-71%。
  • 准确性下降很小,在 FRAMES 上降幅不超过 2%,在 BrowseComp 上降幅不超过 5%,优于启发式基线。
  • 在服务基准中,SideQuest 将系统吞吐量提升了 83.9%,总运行时间降低了 36.8%。
  • SideQuest 保持接近零的未完成率,与若干导致更高失败率的启发式基线形成对比。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。