QUICK REVIEW

[논문 리뷰] Scaling Small Agents Through Strategy Auctions

Lisa Alazraki, William F. Shen|arXiv (Cornell University)|2026. 02. 02.

Multi-Agent Systems and Negotiation인용 수 0

한 줄 요약

논문은 워크로드 효율성을 위한 전략적 경매(Sale)라는 테스트 시점의 시장에서 영감을 받은 라우팅 프레임워크를 도입합니다. 이를 통해 소형 에이전트가 전략적 계획으로 입찰하여 심층 검색 및 코딩 과제를 해결할 수 있습니다. Sale은 더 저렴한 에이전트에 작업을 동적으로 할당하고 경매 기억을 통해 입찰을 다듬어 정확도를 높이고 비용을 줄입니다.

ABSTRACT

Small language models are increasingly viewed as a promising, cost-effective approach to agentic AI, with proponents claiming they are sufficiently capable for agentic workflows. However, while smaller agents can closely match larger ones on simple tasks, it remains unclear how their performance scales with task complexity, when large models become necessary, and how to better leverage small agents for long-horizon workloads. In this work, we empirically show that small agents' performance fails to scale with task complexity on deep search and coding tasks, and we introduce Strategy Auctions for Workload Efficiency (SALE), an agent framework inspired by freelancer marketplaces. In SALE, agents bid with short strategic plans, which are scored by a systematic cost-value mechanism and refined via a shared auction memory, enabling per-task routing and continual self-improvement without training a separate router or running all models to completion. Across deep search and coding tasks of varying complexity, SALE reduces reliance on the largest agent by 53%, lowers overall cost by 35%, and consistently improves upon the largest agent's pass@1 with only a negligible overhead beyond executing the final trace. In contrast, established routers that rely on task descriptions either underperform the largest agent or fail to reduce cost -- often both -- underscoring their poor fit for agentic workflows. These results suggest that while small agents may be insufficient for complex workloads, they can be effectively "scaled up" through coordinated task allocation and test-time self-improvement. More broadly, they motivate a systems-level view of agentic AI in which performance gains come less from ever-larger individual models and more from market-inspired coordination mechanisms that organize heterogeneous agents into efficient, adaptive ecosystems.

연구 동기 및 목표

실제적인 심층 검색 및 코딩 과제에서 작업 복잡도가 소형 에이전트와 대형 에이전트 간의 성능 차이에 어떻게 매개 역할을 하는지 조사한다.
정확도와 계산 비용의 균형을 맞추기 위해 이질적인 에이전트 간에 작업을 할당하는 테스트 시점의 경매 기반 라우팅 프레임워크를 제안한다.
전략 기반 라우팅이 테스트 시점의 자기 개선과 함께 단일 대형 모델 및 기존 라우터보다 더 우수한 성능을 발휘하는지 평가한다.
시장과 유사한 에이전트 간 협력 방식이 어떻게 긴 기간의 작업 부하에 대해 소형 모델을 확장시킬 수 있는지에 대한 통찰을 제공한다.

제안 방법

HST-Bench 벤치마크를 사용하여 Qwen3 에이전트(4B–32B)의 심층 검색 및 코딩 과제에서 규모 확장의 거동을 경험적으로 연구하되, 작업 복잡도 τ(t)를 인간 해답 시간으로 매개한다.
각 에이전트가 전략적 계획 s_{t,i}로 입찰하는 전략-경매 프레임워크 sale을 개발하고, 이는 비용 C_{t,i}와 가치 V_{t,i}로 점수화되어 승자를 선택한다.
C_{t,i} = w_c * π(a_i) * |s_{t,i}| 및 V_{t,i} = w_h * H(s_{t,i}) + sum_j w_j * γ_j(s_{t,i})를 계산합니다. 여기서 H는 계획의 엔트로피이고 γ_j는 동료/배심원 점수입니다.
작업 전반에서 최악의 경우 비용-가치(C - V)를 최소화하는 가중치를 학습하기 위해 최소-최대 최적화를 사용하고, 가장 작은 C - V를 가진 에이전트를 선택한다.
저렴한 에이전트가 경매 메모리 M에서 과거의 경매 쌍을 검색하고 미래 라운드를 개선하기 위해 정제된 입찰 s^r_{t,i}를 생성하는 메모리 기반 정제 단계를 구현한다.
가벼운 실행 비용을 유지합니다: 정제된 입찰은 소규모 추론 오버헤드를 야기하고, 최종 추적은 과업 토큰의 대다수를 차지합니다.

실험 결과

연구 질문

RQ1실제적인 심층 검색 및 코딩 과제에서 작업 복잡도가 소형 에이전트와 대형 에이전트 간의 성능 차이에 어떻게 매개 역할을 하는지 조사한다.
RQ2정확도와 계산 비용의 균형을 맞추기 위해 이질적인 에이전트 간에 작업을 할당하는 테스트 시점의 경매 기반 라우팅 프레임워크를 제안한다.
RQ3전략 기반 라우팅이 테스트 시점의 자기 개선과 함께 단일 대형 모델 및 기존 라우터보다 더 우수한 성능을 발휘하는지 평가한다.
RQ4시장과 유사한 에이전트 간 협력 방식이 어떻게 긴 기간의 작업 부하에 대해 소형 모델을 확장시킬 수 있는지에 대한 통찰을 제공한다.

주요 결과

소형 에이전트는 단순한 과제에서 대형 에이전트와 비슷하게 동작하지만, 과제 복잡도가 증가함에 따라 차이가 벌어지며 심층 검색 및 코딩 과제에서 pass@1 격차가 크게 벌어진다.
Sale은 과제 복잡도 전반에서 단일 최상위 에이전트보다 더 높은 pass@1를 달성하고(예: 심층 검색에서 +3.5%, 코딩에서 +2.7%), 상당한 작업 부하를 분담하며(심층 검색 −65%, 코딩 −40%), 총 지출을 줄인다(심층 검색 −42%, 코딩 −25%).
경매 기억은 시간이 지남에 따라 작고 저렴한 에이전트를 더 자주 선택하도록 하여 지속적인 자기 개선과 이질적 에이전트 풀의 더 나은 활용을 보여준다.
확립된 라우터와 비교할 때, Sale은 정확도-비용 트레이드오프에서 일관되게 우수하며, 메모리가 있는 전략 기반 라우팅이 태스크-설명 기반 라우팅보다 에이전트적 작업에 더 적합하다는 것을 시사한다.
Sale은 성능-비용 파레토 경계를 단일 에이전트 이상의 범위로 확장하고, 다양한 복잡도에서도 정확도를 유지하거나 향상시키면서 대형 모델에 대한 의존도를 줄인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.