[论文解读] Scaling Small Agents Through Strategy Auctions
本文提出面向工作负载效率的策略拍卖(Sale),一种在测试时如市场般 routing 的框架,允许小代理通过策略计划出价以解决深度搜索与编码任务。Sale 通过动态将任务分配给成本更低的代理并通过拍卖记忆 refinements 来改进出价,从而提升准确性并降低成本。
Small language models are increasingly viewed as a promising, cost-effective approach to agentic AI, with proponents claiming they are sufficiently capable for agentic workflows. However, while smaller agents can closely match larger ones on simple tasks, it remains unclear how their performance scales with task complexity, when large models become necessary, and how to better leverage small agents for long-horizon workloads. In this work, we empirically show that small agents' performance fails to scale with task complexity on deep search and coding tasks, and we introduce Strategy Auctions for Workload Efficiency (SALE), an agent framework inspired by freelancer marketplaces. In SALE, agents bid with short strategic plans, which are scored by a systematic cost-value mechanism and refined via a shared auction memory, enabling per-task routing and continual self-improvement without training a separate router or running all models to completion. Across deep search and coding tasks of varying complexity, SALE reduces reliance on the largest agent by 53%, lowers overall cost by 35%, and consistently improves upon the largest agent's pass@1 with only a negligible overhead beyond executing the final trace. In contrast, established routers that rely on task descriptions either underperform the largest agent or fail to reduce cost -- often both -- underscoring their poor fit for agentic workflows. These results suggest that while small agents may be insufficient for complex workloads, they can be effectively "scaled up" through coordinated task allocation and test-time self-improvement. More broadly, they motivate a systems-level view of agentic AI in which performance gains come less from ever-larger individual models and more from market-inspired coordination mechanisms that organize heterogeneous agents into efficient, adaptive ecosystems.
研究动机与目标
- 研究任务复杂性如何调节小型代理与大型代理在现实世界深度搜索和编码任务上的性能差距。
- 提出一种测试时拍卖驱动的路由框架,在异质代理之间分配任务以在准确性与计算成本之间取得平衡。
- 评估基于策略的路由结合测试时自我提升是否能超越单个大型模型与现有路由器。
- 提供关于市场化协作在 AI 代理中的作用,以扩大量级较小模型处理长时程工作负载的见解。
提出的方法
- 通过在 HST-Bench 基准上对 Qwen3(4B–32B)代理在深度搜索和编码任务上的扩展性进行经验研究,参数化任务复杂度 τ(t) 为人类解题时间。
- 开发 Sale:一个策略-拍卖框架,在该框架中每个代理以策略计划 s_{t,i} 出价,按成本 C_{t,i} 与对任务的价值 V_{t,i} 进行评分以选出获胜者。
- 计算 C_{t,i} = w_c * π(a_i) * |s_{t,i}| 和 V_{t,i} = w_h * H(s_{t,i}) + ∑_j w_j * γ_j(s_{t,i}),其中 H 是计划的熵,γ_j 是同行/评审分数。
- 使用极小极大优化来学习权重,使在任务上的最坏情况成本-价值(C - V)最小化,从而选择拥有最小 C - V 的代理。
- 实现一个基于记忆的细化步骤,成本较低的代理从拍卖记忆 M 中检索过去的拍卖对并生成 refined bids s^r_{t,i},以改进未来轮次。
- 保持轻量级执行成本:细化出价带来有限的推理开销,而最终轨迹消耗任务代币的主体。
实验结果
研究问题
- RQ1任务复杂性如何影响小型与大型代理在现实世界深度搜索和编码任务上的性能差距?
- RQ2市场化路由机制(Sale)是否能在异质代理之间高效路由任务,从而在通过率(pass@1)上提升并降低成本,相对于单一大型代理?
- RQ3通过拍卖记忆的测试时自我提升是否让较小代理逐步承担更多工作负载而不牺牲准确性?
- RQ4与现有路由器(预测型与非预测型)相比,Sale 在成本节约和准确性方面对复杂、长时程任务的表现如何?
主要发现
- 在简单任务上,小型代理可以达到大型代理的水平,但随着任务复杂度提升,差距扩大,在深度搜索和编码任务中通过率(pass@1)差距显著增大。
- Sale 在不同任务复杂度下的通过率高于单一最佳代理(例如,在深度搜索上提升 +3.5%,在编码上提升 +2.7%),同时显著降低工作量负担(深度搜索降低 65%、编码降低 40%),并减少总花费(深度搜索降低 42%、编码降低 25%)。
- 拍卖记忆使得较小、成本较低的代理在时间上被更频繁地选中,展示出持续自我提升和对异质代理池更好的利用。
- 相较于已建立的路由器,Sale 在准确性与成本的权衡上持续领先,表明基于策略的带记忆路由比基于任务描述的路由更适合代理驱动的工作负载。
- Sale 将性能-成本帕累托前沿扩展到超越任何单一代理,降低对大型模型的依赖,同时在复杂度上维持或提升准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。