[論文レビュー] Scaling Small Agents Through Strategy Auctions
論文は、Workload EfficiencyのためのStrategy Auctions(Sale)を導入します。これはテスト時点の市場を模したルーティングフレームワークで、小さなエージェントが戦略的プランを用いて深い探索とコーディングタスクを解くために入札できる方式です。Saleはタスクを安価なエージェントへ動的に割り当て、オークションメモリを通じて入札を洗練させることで、精度を向上させつつコストを削減します。
Small language models are increasingly viewed as a promising, cost-effective approach to agentic AI, with proponents claiming they are sufficiently capable for agentic workflows. However, while smaller agents can closely match larger ones on simple tasks, it remains unclear how their performance scales with task complexity, when large models become necessary, and how to better leverage small agents for long-horizon workloads. In this work, we empirically show that small agents' performance fails to scale with task complexity on deep search and coding tasks, and we introduce Strategy Auctions for Workload Efficiency (SALE), an agent framework inspired by freelancer marketplaces. In SALE, agents bid with short strategic plans, which are scored by a systematic cost-value mechanism and refined via a shared auction memory, enabling per-task routing and continual self-improvement without training a separate router or running all models to completion. Across deep search and coding tasks of varying complexity, SALE reduces reliance on the largest agent by 53%, lowers overall cost by 35%, and consistently improves upon the largest agent's pass@1 with only a negligible overhead beyond executing the final trace. In contrast, established routers that rely on task descriptions either underperform the largest agent or fail to reduce cost -- often both -- underscoring their poor fit for agentic workflows. These results suggest that while small agents may be insufficient for complex workloads, they can be effectively "scaled up" through coordinated task allocation and test-time self-improvement. More broadly, they motivate a systems-level view of agentic AI in which performance gains come less from ever-larger individual models and more from market-inspired coordination mechanisms that organize heterogeneous agents into efficient, adaptive ecosystems.
研究の動機と目的
- 現実的な深い探索とコーディングタスクにおける小さなエージェントと大規模エージェント間の性能ギャップを、タスクの複雑さが mediates することを調査する。
- 異種エージェント間でタスクを割り当て、精度と計算コストのバランスを取るテスト時点のオークションベースルーティングフレームワークを提案する。
- 戦略ベースのルーティングとテスト時の自己改善が、単一の大規模モデルや既存ルーターを上回るかを評価する。
- AIエージェント間の市場のような協調が、小さなモデルを長期的な作業負荷へとスケールさせる手掛かりを提供する。
提案手法
- HST-Benchベンチマークを用いて、深い探索とコーディングタスクにおけるQwen3エージェント(4B–32B)のスケーリング挙動を実証的に調査し、タスクの複雑さ τ(t) を人間の解答時間でパラメータ化する。
- Saleという、各エージェントが戦略プラン s_{t,i} で入札する戦略オークションフレームワークを開発し、コスト C_{t,i} と価値 V_{t,i} で採点して勝者を選定する。
- C_{t,i} = w_c * π(a_i) * |s_{t,i}|、V_{t,i} = w_h * H(s_{t,i}) + ∑_j w_j * γ_j(s_{t,i}) を用い、H はプランのエントロピー、γ_j はピア/評審スコアとする。
- 最悪ケースのコスト-価値 (C - V) を最小化する重みを学習するミンマックス最適化を用い、C - V が最も小さいエージェントを選択する。
- より安価なエージェントがオークションメモリ M から過去のオークションペアを取得し、未来のラウンドを改善する洗練された入札 s^r_{t,i} を生成する、メモリ駆動のリファインメントステップを実装する。
- 軽量な実行コストを維持:洗練された入札は推論オーバーヘッドを控えめに抑え、最終的なトレースはタスクトークンの大半を消費する。
実験結果
リサーチクエスチョン
- RQ1現実的な深い探索とコーディングタスクにおいて、タスクの複雑さは小さなエージェントと大きなエージェントの性能ギャップにどのような影響を与えるか?
- RQ2市場に触発されたルーティング機構(sale)は、異種エージェント間でタスクを効率的に割り当て、pass@1 を改善し単一の大きなエージェントと比較してコストを削減できるか?
- RQ3オークションメモリによるテスト時の自己改善は、精度を犠牲にせずに小さなエージェントが徐々により多くの作業を担えるようになるか?
- RQ4sale は既存のルーター(予測的および非予測的)と比較して、複雑で長期的なタスクにおけるコスト削減と精度の点でどうか?
主な発見
- 小さなエージェントは単純なタスクでは大きなエージェントと同等だが、タスクの複雑さが増すと深い探索とコーディングタスクで pass@1 のギャップが大幅に拡大する。
- Sale は、タスクの複雑さを問わず最良の単一エージェントより高い pass@1 を実現し(例:深い探索で +3.5%、コーディングで +2.7%)、大きな作業負荷を大幅に分散させ、総費用を削減する(深い探索で −65%、コーディングで −40%、総費用 −42%、 −25%)。
- オークションメモリにより、小さく安価なエージェントが時間の経過とともにより頻繁に選択されるようになり、継続的な自己改善と異種エージェントプールのより良い活用を示す。
- 確立されたルーターと比較して、Sale は常に精度-コストのトレードオフで上回り、メモリを活用した戦略ベースのルーティングが、タスク記述ベースのルーティングよりもエージェント的な作業負荷に適していることを示す。
- Sale はパレートフロンティアを拡張し、単一エージェントを超えた性能を維持または複雑性に応じて向上させつつ、大規模モデルへの依存を減らす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。