Skip to main content
QUICK REVIEW

[논문 리뷰] ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

Hao Kang, Ziyang Li|arXiv (Cornell University)|2026. 02. 14.
Machine Learning in Materials Science인용 수 0
한 줄 요약

ThunderAgent는 엔드투엔드 에이전트 추론을 최적화하기 위한 프로그램 인식 추상화와 스케줄러를 도입하여 이전 시스템보다 더 높은 처리량과 더 나은 자원 관리 성능을 제공합니다. 코딩, 라우팅 및 과학 탐색 에이전트와 RL 롤아웃을 포함한 상당한 처리량 증가와 메모리 효율성을 달성합니다.

ABSTRACT

Large language models(LLMs) are now used to power complex multi-turn agentic workflows. Existing systems run agentic inference by loosely assembling isolated components: an LLM inference engine (e.g., vLLM) and a tool orchestrator (e.g., Kubernetes). Although agentic workflows involve multiple LLM and tool requests, these systems schedule and allocate resources separately on a per-request basis, without end-to-end knowledge of the workflow. This leads to sub-optimal management of KV cache and tool execution environments. To address the challenges, we propose ThunderAgent, a fast, simple, and program-aware agentic inference system. We first abstract agentic workflows as LLM Programs, enabling a unified view of heterogeneous resources, including KV caches, system states, and external tool assets such as disk memory and network ports. Built upon this abstraction, ThunderAgent introduces a program-aware scheduler and a tool resource manager designed to maximize KV cache hit rates, mitigate memory imbalances, and enable asynchronous environment preparation. Evaluations across coding, routing, and scientific discovery agents demonstrate that ThunderAgent achieves 1.5-3.6x throughput improvements in serving, 1.8-3.9x in RL rollout, and up to 4.2x disk memory savings compared to state-of-the-art inference systems. To facilitate reproducibility and support future development, we open-source the system implementations of the whole ThunderAgent at: https://github.com/Agentic-Kinetics/ThunderAgent.

연구 동기 및 목표

  • KV 캐시와 도구 환경을 모두 고려하여 에이전트적 워크플로우의 엔드투엔드 최적화를 추진한다.
  • 모델 백엔드와 도구 전반에 걸친 이질적인 자원을 통합하기 위한 프로그램 기반 추상화를 도입한다.
  • 메모리 한계를 존중하면서 재계산 및 캐싱 오버헤드를 최소화하는 프로그램 인식 스케줄러를 개발한다.
  • 자원 누수를 방지하고 환경 준비를 가속화하기 위한 프로그램 인식 도구 자원 관리를 제안한다.
  • RL 롤아웃을 포함하여 코딩, 라우팅, 과학 탐사 에이전트 전반에서 처리량과 메모리 절감을 시연한다.

제안 방법

  • Agentic Program을 모델 호출과 도구 실행 전반에 걸쳐 지속되는 일급 스케줄링 단위로 정의한다.
  • 생산적 처리량과 낭비적 재계산 및 유휴 캐싱을 구분하기 위한 비용 모델(Space-Time Product)을 공식화한다.
  • KV-캐시 트래싱을 최소화하기 위해 Restore 및 Pause 연산이 있는 프로그램 인식 대기 큐를 구현한다.
  • 메모리를 DP 노드 간 균형 맞추기를 위해 전역 프로그램 인식 대기 큐를 공유하여 동적 노드 간 마이그레이션을 가능하게 한다.
  • 가비지 컬렉션과 비동기 환경 준비를 통한 수명주기 기반 도구 자원 관리로 자원 누수와 지연을 줄인다.
(a) Throughput degradation
(a) Throughput degradation

실험 결과

연구 질문

  • RQ1에이전트적 워크플로우의 엔드투엔드 스케줄링이 요청 단위 스케줄링에 비해 KV 캐시 효율성과 처리량을 어떻게 개선할 수 있는가?
  • RQ2다중 노드 설정에서 메모리, 재계산, 도구-환경 오버헤드를 가장 잘 균형 잡는 추상화와 정책은 무엇인가?
  • RQ3높은 처리량을 유지하면서 도구 환경의 프로그램 인식 관리가 디스크/네트워크 자원 낭비를 줄일 수 있는가?
  • RQ4코딩, 라우팅, 과학 탐사 에이전트 전반에서 ThunderAgent의 성능은 어떠하며 RL 롤아웃 맥락을 포함하는가?

주요 결과

  • ThunderAgent는 최첨단 기준치와 비교하여 서빙에서 1.5–3.6×의 처리량 향상을 달성한다.
  • RL 롤아웃 작업에서 1.8–3.9×의 처리량 향상을 달성한다.
  • 이전 시스템에 비해 최대 4.2× 디스크 메모리 절감 효과를 제공한다.
  • 예측 가능한 도구 시간에서 거의 100% KV 캐시 적중률을 보이며, 확률적 도구 시간에서도 견고한 성능을 보인다.
  • 전역 프로그램 인식 대기 큐가 노드 간 메모리 불균형을 완화하고 불필요한 재계산 및 캐싱 비용을 줄인다.
(b) KV cache thrashing
(b) KV cache thrashing

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.