Skip to main content
QUICK REVIEW

[論文レビュー] ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

Hao Kang, Ziyang Li|arXiv (Cornell University)|Feb 14, 2026
Machine Learning in Materials Science被引用数 0
ひとこと要約

ThunderAgentはプログラム認識の抽象化とスケジューラを導入し、エージェント的推論をエンドツーエンドで最適化。従来システムより高いスループットと資源管理を実現。コーディング、ルーティング、科学的探索エージェント、RLロールアウトを含む全体で著しいスループット向上とメモリ効率を達成。

ABSTRACT

Large language models(LLMs) are now used to power complex multi-turn agentic workflows. Existing systems run agentic inference by loosely assembling isolated components: an LLM inference engine (e.g., vLLM) and a tool orchestrator (e.g., Kubernetes). Although agentic workflows involve multiple LLM and tool requests, these systems schedule and allocate resources separately on a per-request basis, without end-to-end knowledge of the workflow. This leads to sub-optimal management of KV cache and tool execution environments. To address the challenges, we propose ThunderAgent, a fast, simple, and program-aware agentic inference system. We first abstract agentic workflows as LLM Programs, enabling a unified view of heterogeneous resources, including KV caches, system states, and external tool assets such as disk memory and network ports. Built upon this abstraction, ThunderAgent introduces a program-aware scheduler and a tool resource manager designed to maximize KV cache hit rates, mitigate memory imbalances, and enable asynchronous environment preparation. Evaluations across coding, routing, and scientific discovery agents demonstrate that ThunderAgent achieves 1.5-3.6x throughput improvements in serving, 1.8-3.9x in RL rollout, and up to 4.2x disk memory savings compared to state-of-the-art inference systems. To facilitate reproducibility and support future development, we open-source the system implementations of the whole ThunderAgent at: https://github.com/Agentic-Kinetics/ThunderAgent.

研究の動機と目的

  • KVキャッシュとツール環境の両方を考慮して、エージェント的ワークフローのエンドツーエンド最適化を動機づける。
  • モデルバックエンドとツールを横断する異種リソースを統一するプログラムベースの抽象化を導入する。
  • 再計算とキャッシングオーバーヘッドを最小化しつつメモリ制限を尊重するプログラム認識スケジューラを開発する。
  • リソースリークを防ぎ環境準備を加速するプログラム認識ツール資源管理を提案する。
  • RLロールアウトを含むコーディング、ルーティング、科学的探索エージェントでのスループットとメモリ節約を実証する。

提案手法

  • エージェント的プログラムをモデル呼び出しとツール実行を横断して存続する一次級スケジューリング単位として定義する。
  • 生産的スループットと無駄な再計算・アイドルキャッシングを分離するコストモデル( Space-Time Product )を定式化する。
  • KVキャッシュのスラッシュを最小化するRestoreとPause操作を備えたプログラム認識待機列を実装する。
  • グローバルなプログラム認識待機列を共有してDPノード間でメモリを分散させ、動的なノード間移行を可能にする。
  • ガベージコレクションと非同期環境準備を伴うライフサイクルベースのツール資源管理を提供し、リソース漏れと遅延を低減する。
(a) Throughput degradation
(a) Throughput degradation

実験結果

リサーチクエスチョン

  • RQ1エージェント的ワークフローのエンドツーエンドスケジューリングは、個別リクエスト単位のスケジューリングと比べてKVキャッシュ効率とスループットをどう改善するか。
  • RQ2多ノード環境で、メモリ・再計算・ツール環境オーバーヘッドの最適なバランスをとる抽象化と方針は何か。
  • RQ3プログラム認識によるツール環境管理は、ディスク/ネットワークリソースの無駄を減らしつつ高いスループットを維持できるか。
  • RQ4コーディング、ルーティング、科学的探索エージェント(RLロールアウトを含む)でThunderAgentはどの程度性能を発揮するか。

主な発見

  • ThunderAgentは最先端ベースラインと比較してサービング時のスループットを1.5–3.6倍向上させる。
  • ThunderAgentはRLロールアウトタスクで1.8–3.9倍のスループット向上を達成する。
  • ThunderAgentは従来システムと比較してディスクメモリを最大4.2倍節約する。
  • 予測可能なツール時間下でKVキャッシュヒット率ほぼ100%を達成し、確率的ツール時間下でも堅牢な性能を示す。
  • グローバルなプログラム認識待機列はノード間のメモリ不均衡を緩和し、不要な再計算・キャッシュコストを低減する。
(b) KV cache thrashing
(b) KV cache thrashing

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。