QUICK REVIEW

[論文レビュー] Learning to Configure Agentic AI Systems

Aditya Taparia, Som Sagar|arXiv (Cornell University)|Feb 12, 2026

AI-based Problem Solving and Planning被引用数 0

ひとこと要約

ARCは軽量な階層型RLポリシーを学習し、各クエリごとのワークフロー、ツール、予算、プロンプトをLLMベースのエージェントに適応させ、静的設計や他のベースラインを上回りつつ計算量を削減します。

ABSTRACT

Configuring LLM-based agent systems involves choosing workflows, tools, token budgets, and prompts from a large combinatorial design space, and is typically handled today by fixed large templates or hand-tuned heuristics. This leads to brittle behavior and unnecessary compute, since the same cumbersome configuration is often applied to both easy and hard input queries. We formulate agent configuration as a query-wise decision problem and introduce ARC (Agentic Resource & Configuration learner), which learns a light-weight hierarchical policy using reinforcement learning to dynamically tailor these configurations. Across multiple benchmarks spanning reasoning and tool-augmented question answering, the learned policy consistently outperforms strong hand-designed and other baselines, achieving up to 25% higher task accuracy while also reducing token and runtime costs. These results demonstrate that learning per-query agent configurations is a powerful alternative to "one size fits all" designs.

研究の動機と目的

brittleなワンサイズフィットオールな設定を避けるためにクエリ適応型のエージェント構成の必要性を動機づける。
エージェント構成を強化学習に適したクエリごとの意思決定問題として定式化する。
構造ポリシーとプロンプトポリシーを持つ階層RLフレームワークARCを開発し、 backboneモデルの再訓練なしにワークフロー、ツール、予算、プロンプトを最適化する。
学習を安定化させるためのマスクドRLと監視付きファインチューニングを組み合わせたハイブリッドなトレーニングパイプラインを開発する。
ARCを推論とツール使用のベンチマーク全体で実証的に検証し、ベースラインより精度と効率が向上することを示す。

提案手法

設定を2レベルのポリシーとして表現する：高レベルの構造ポリシーはワークフロー、ツール、予算を選択し、低レベルのプロンプトポリシーが指示を作成する。
各エピソードが1つのクエリのためにエージェントシステムを構成し実行する短いエピソードMDPを使用し、状態は固定された意味表現埋め込みと簡易なクエリ特徴から導出される。
PPOを用いて、正確さと効率のバランスを取る形状報酬と、実際の使用とツール割り当てを整合させるツール整形項を含む。
無効な構成を剪定し有効な行動空間を削減するための行動マスキングを適用する。
SFTによるエリート軌道で高品質な構成を蒸留し、ポリシーの集中化に関する理論的保証を与える、訓練後のファインチューニングを実施する。
SFTがエリート構成にポリシーを集中させ、報酬の floor を維持することを理論的に正当化する。

Figure 1 : (a) Shows how our method learns to configure optimal configuration across thousands of possibilities for the given input. (b) Shows improvement by our method over multiple datasets. (These results are for Qwen 2.5 7B Instruct model.)

実験結果

リサーチクエスチョン

RQ1学習されたクエリ適応型構成は、推論・ツール使用タスク全般で固定アーキテクチャやヒューリスティック最適化ベースラインを上回ることができるか？
RQ2適応的リソース割り当ては、精度を維持または向上させつつトークン使用量や実行時間を削減できるか？
RQ3学習済み構成はタスクとモデル容量を越えてどの程度転移可能であり、転移に影響を与える要因は何か？
RQ4階層RLとSFTの組み合わせは、非階層的または単一目的法より安定性と性能向上をもたらすか？

主な発見

ARCは複数のベンチマークで強力なベースラインと比較してタスク精度を最大25%向上させ、トークン/実行コストを削減する。
構造とプロンプトの2レベルポリシーは平坦なポリシーよりサンプル効率と探索複雑性を改善する。
マスクドアクションマスキングは無効な構成を削減し、探索をより効率的にする。
SFTの精錬は平均報酬をデータセットとモデル間で5–35%改善し、エリート構成への集中に関する理論的保証を提供する。
ARCはGSM8k、DROP、HotPotQA、GAIAのベンチマークでパレート最適な精度とコストのトレードオフを示し、基盤モデルや他の最適化手法を上回る。

Figure 2 : Training pipeline. The structure policy selects workflows, tools, and budgets while the prompt policy composes instructions. During RL training, episodes are stored in a memory buffer. After RL converges, high-reward episodes are filtered and used for supervised fine-tuning (SFT), which c

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。