Skip to main content
QUICK REVIEW

[论文解读] ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

Hao Kang, Ziyang Li|arXiv (Cornell University)|Feb 14, 2026
Machine Learning in Materials Science被引用 0
一句话总结

ThunderAgent 提出面向程序的抽象和调度器,用于优化端到端的代理推理,提升吞吐量并改善资源管理,超越以往系统。它在代码、路由、科学发现代理以及 RL 轮回任务中实现了显著的吞吐提升和内存效率。

ABSTRACT

Large language models(LLMs) are now used to power complex multi-turn agentic workflows. Existing systems run agentic inference by loosely assembling isolated components: an LLM inference engine (e.g., vLLM) and a tool orchestrator (e.g., Kubernetes). Although agentic workflows involve multiple LLM and tool requests, these systems schedule and allocate resources separately on a per-request basis, without end-to-end knowledge of the workflow. This leads to sub-optimal management of KV cache and tool execution environments. To address the challenges, we propose ThunderAgent, a fast, simple, and program-aware agentic inference system. We first abstract agentic workflows as LLM Programs, enabling a unified view of heterogeneous resources, including KV caches, system states, and external tool assets such as disk memory and network ports. Built upon this abstraction, ThunderAgent introduces a program-aware scheduler and a tool resource manager designed to maximize KV cache hit rates, mitigate memory imbalances, and enable asynchronous environment preparation. Evaluations across coding, routing, and scientific discovery agents demonstrate that ThunderAgent achieves 1.5-3.6x throughput improvements in serving, 1.8-3.9x in RL rollout, and up to 4.2x disk memory savings compared to state-of-the-art inference systems. To facilitate reproducibility and support future development, we open-source the system implementations of the whole ThunderAgent at: https://github.com/Agentic-Kinetics/ThunderAgent.

研究动机与目标

  • 通过考虑 KV 缓存和工具环境来推动代理工作流的端到端优化。
  • 引入基于程序的抽象,以统一模型后端和工具之间的异构资源。
  • 开发面向程序的调度器,在遵守内存限制的同时尽量减少重计算和缓存开销。
  • 提出面向程序的工具资源管理,以防止资源泄漏并加速环境准备。
  • 展示在编码、路由和科学发现代理(含 RL 轮回)中的吞吐与内存节省。

提出的方法

  • 将代理程序定义为跨模型调用和工具执行的第一类调度单元并持续存在。
  • 提出成本模型(时空乘积),将生产性吞吐量与低效重计算和空闲缓存分离。
  • 实现一个具备 Restore 与 Pause 操作的面向程序的等待队列,以最小化 KV 缓存争用。
  • 通过共享全局面向程序的等待队列实现跨节点动态迁移,以在 DP 节点之间平衡内存。
  • 提供基于生命周期的工具资源管理,含垃圾回收与异步环境准备,以减少资源泄漏和延迟。
(a) Throughput degradation
(a) Throughput degradation

实验结果

研究问题

  • RQ1端到端调度代理工作流相比逐请求调度,如何提升 KV 缓存效率和吞吐量?
  • RQ2在多节点环境中,哪些抽象与策略能在内存、重计算和工具环境开销之间取得最佳平衡?
  • RQ3面向程序的工具环境管理是否能在保持高吞吐的同时降低磁盘/网络资源的浪费?
  • RQ4ThunderAgent 在编码、路由与科学发现代理(包括 RL 轮回情境)下的表现如何?

主要发现

  • ThunderAgent 在服务端相较于最先进基线实现了 1.5–3.6× 的吞吐提升。
  • ThunderAgent 在 RL 轮回任务中实现了 1.8–3.9× 的吞吐提升。
  • ThunderAgent 相对于前代系统在磁盘内存方面节省最多达 4.2×。
  • 在可预测的工具时间下,KV 缓存命中率接近 100%,在随机工具时间下也具有稳健表现。
  • 全球性的面向程序的等待队列缓解了跨节点的内存不均衡,降低了不必要的重计算与缓存成本。
(b) KV cache thrashing
(b) KV cache thrashing

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。