[논문 리뷰] ASTER: Agentic Scaling with Tool-integrated Extended Reasoning
ASTER는 상호작용이 밀집된 도구 사용 트레이젝토리로 상호작용 붕괴를 방지하고 도구가 통합된 RL에서 확장된 에이전틱 추론을 가능하게 하는 콜드 스타트 전략을 도입하여 4B 모델로 수학 벤치마크에서 최첨단 성능을 달성합니다.
Reinforcement learning (RL) has emerged as a dominant paradigm for eliciting long-horizon reasoning in Large Language Models (LLMs). However, scaling Tool-Integrated Reasoning (TIR) via RL remains challenging due to interaction collapse: a pathological state where models fail to sustain multi-turn tool usage, instead degenerating into heavy internal reasoning with only trivial, post-hoc code verification. We systematically study three questions: (i) how cold-start SFT induces an agentic, tool-using behavioral prior, (ii) how the interaction density of cold-start trajectories shapes exploration and downstream RL outcomes, and (iii) how the RL interaction budget affects learning dynamics and generalization under varying inference-time budgets. We then introduce ASTER (Agentic Scaling with Tool-integrated Extended Reasoning), a framework that circumvents this collapse through a targeted cold-start strategy prioritizing interaction-dense trajectories. We find that a small expert cold-start set of just 4K interaction-dense trajectories yields the strongest downstream performance, establishing a robust prior that enables superior exploration during extended RL training. Extensive evaluations demonstrate that ASTER-4B achieves state-of-the-art results on competitive mathematical benchmarks, reaching 90.0% on AIME 2025, surpassing leading frontier open-source models, including DeepSeek-V3.2-Exp.
연구 동기 및 목표
- 콜드-start SFT 설계가 RL 하에서 도구 사용 행동의 하류 설계에 어떤 영향을 미치는지 조사합니다.
- 콜드-start 트래젝토리의 상호작용 밀도가 탐색 및 RL 결과에 미치는 영향을 검토합니다.
- RL 상호작용 예산이 다양한 추론 예산 하에서 학습 역학 및 테스트 타임 성능에 미치는 영향을 평가합니다.
- 밀집되고 긴 시계열의 콜드-start 사전이 더 나은 에이전틱 확장 및 도구 통합을 가능하게 한다는 것을 입증합니다.
제안 방법
- GPT-OSS-20B를 사용하여 도구 보강 트래젝토리를 합성하고 상호작용 밀도가 높은 4K 트라이젝토리를 포함하는 작은 전문가 콜드-start 데이터셋을 큐레이션합니다.
- 그룹 상대 정책 최적화(GRPO) 방식의 강화 학습으로 이어지는 두 단계의 콜드-start SFT를 사용합니다.
- 행동적 사전 정보를 연구하기 위해 여러 콜드-start 전략(Zero, ZeroForceTool, ReTool, DemyAgent, ASTER)을 비교합니다.
- 탐색, 도구 사용, 최종 성능에 미치는 영향을 분석하기 위해 상호작용 밀도와 RL 예산을 변화시킵니다.
- 지정된 디코딩 설정에서 경쟁 수학 벤치마크(AIME2024, AIME2025, HMMT2025, BeyondAIME)로 평가합니다.
- 도구 호출 빈도와 엔트로피를 포함한 학습 역학을 보고하여 에이전틱 확장 동작을 이해합니다.

실험 결과
연구 질문
- RQ1RQ1: 콜드-start SFT 설계가 도입된 도구 사용 행동 사전 및 하류 RL 성능에 어떤 영향을 미칩니까?
- RQ2RQ2: 콜드-start 트레이젝토리의 상호작용 밀도가 탐색 및 RL 결과에 어떤 영향을 미칩니까?
- RQ3RQ3: RL 상호작용 예산이 다양한 추론 예산 하에서 학습 역학 및 테스트 타임 성능에 어떤 영향을 미칩니까?
주요 결과
| 모델 | AIME2024 | AIME2025 | HMMT2025 | BeyondAIME | avg@16 |
|---|---|---|---|---|---|
| OpenReasoning-Nemotron-7B | 84.7 | 78.2 | 63.5 | – | – |
| Qwen3-235B-A22B-Thinking | 85.7 | 81.5 | 62.5 | – | – |
| POLARIS-4B-Preview | 81.2 | 79.4 | 58.7 | – | – |
| ReTool-32B | 72.5 | 54.3 | – | – | – |
| rStar2-Agent-14B | 80.6 | 69.8 | 52.7 | – | – |
| DemyAgent-4B | 72.6 | 70.0 | 52.9 | † | 35.3 |
| ASTER-1.7B-SFT | 19.4 | 19.0 | 11.3 | 6.4 | – |
| ASTER-1.7B | 64.6 | 59.6 | 47.5 | 26.3 | – |
| ASTER-4B-SFT | 62.5 | 54.6 | 43.3 | 27.4 | – |
| ASTER-4B | 82.3 | 85.0 | 73.3 | 53.9 | – |
| ASTER-4B w/ 90K Inference Budget | 85.8 | 90.0 | 77.1 | 61.7 | – |
- 작은 규모의 상호작용 밀도가 높은 콜드-start 세트(4K 트라이젝토리, 9회 이상 도구 상호작용 포함)가 가장 강력한 하류 성능을 납니다.
- 상호작용 밀도가 RL 중 탐색을 유지하는 콜드-start 사전의 핵심 속성으로, 상호작용 붕괴를 방지합니다.
- 학습 시간상의 더 높은 상호작용 예산은 추론 예산이 큰 경우 테스트 타임 확장을 개선하는 반면, 더 촘촘한 추론 예산은 제약된 상호작용 예산으로 훈련된 모델에 유리합니다.
- ASTER-4B는 수학 벤치마크에서 최첨단 결과를 달성하며, 특히 85.0% AIME2025(90K 추론 예산에서 90.0% 도달)로 더 큰 모델을 능가합니다.
- 90K 추론 예산 하에서 ASTER-4B는 AIME2025에서 90.0%, HMMT2025에서 77.1%, BeyondAIME에서 61.7%를 달성하며 여러 대형 베이스라인을 능가합니다.
- 콜드-start 이후 초기 성능 하락이 나타나지만 RL이 진행되면서 회복되고 장기 시계열 도구 사용이 우수해지는 학습 역학이 관찰됩니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.