[論文レビュー] ASTER: Agentic Scaling with Tool-integrated Extended Reasoning
ASTERは interaction-dense なツール使用軌道を用いたコールドスタート戦略を導入し、インタラクション崩壊を防ぎ、ツール統合LLMの強化学習におけるエージェント的推論を拡張可能にし、4Bモデルで数学ベンチマークの最先端を達成する。
Reinforcement learning (RL) has emerged as a dominant paradigm for eliciting long-horizon reasoning in Large Language Models (LLMs). However, scaling Tool-Integrated Reasoning (TIR) via RL remains challenging due to interaction collapse: a pathological state where models fail to sustain multi-turn tool usage, instead degenerating into heavy internal reasoning with only trivial, post-hoc code verification. We systematically study three questions: (i) how cold-start SFT induces an agentic, tool-using behavioral prior, (ii) how the interaction density of cold-start trajectories shapes exploration and downstream RL outcomes, and (iii) how the RL interaction budget affects learning dynamics and generalization under varying inference-time budgets. We then introduce ASTER (Agentic Scaling with Tool-integrated Extended Reasoning), a framework that circumvents this collapse through a targeted cold-start strategy prioritizing interaction-dense trajectories. We find that a small expert cold-start set of just 4K interaction-dense trajectories yields the strongest downstream performance, establishing a robust prior that enables superior exploration during extended RL training. Extensive evaluations demonstrate that ASTER-4B achieves state-of-the-art results on competitive mathematical benchmarks, reaching 90.0% on AIME 2025, surpassing leading frontier open-source models, including DeepSeek-V3.2-Exp.
研究の動機と目的
- RL下での下流ツール使用行動を形成するコールドスタートSFT設計の影響を調査する。
- コールドスタート軌道の相互作用密度が探索とRLの結果に与える影響を検討する。
- さまざまな推論予算下でのRL相互作用予算が学習ダイナミクスとテスト時の性能に与える影響を評価する。
- 密度の高い長期的なコールドスタート事前学習が優れたエージェント的スケーリングとツール統合を実現することを示す。
提案手法
- GPT-OSS-20Bを用いてツール付帯軌道を統合し、4Kのインタラクション密度軌道からなる小規模な専門家コールドスタートデータセットをキュレーションする。
- 二段階のコールドスタートSFTの後にGroup Relative Policy Optimization (GRPO)による強化学習を行う。
- 挙動的プリオリを研究するために複数のコールドスタート戦略(Zero, ZeroForceTool, ReTool, DemyAgent, ASTER)を比較する。
- 探索、ツール使用、最終的な性能への影響を分析するために相互作用密度とRL予算を変化させる。
- 指定されたデコード設定の下で競争的な数学ベンチマーク(AIME2024, AIME2025, HMMT2025, BeyondAIME)を評価する。
- ツール呼び出し頻度とエントロピーを含む学習ダイナミクスを報告し、エージェント的スケーリング挙動を理解する。

実験結果
リサーチクエスチョン
- RQ1RQ1: コールドスタートSFT設計は誘導されたツール使用行動のプリオリと下流のRL性能をどのように形作るか?
- RQ2RQ2: コールドスタート軌道の相互作用密度は探索とRL結果にどのように影響するか?
- RQ3RQ3: RL相互作用予算は、さまざまな推論予算の下で学習ダイナミクスとテスト時の性能にどう影響するか?
主な発見
| Model | AIME2024 | AIME2025 | HMMT2025 | BeyondAIME | avg@16 |
|---|---|---|---|---|---|
| OpenReasoning-Nemotron-7B | 84.7 | 78.2 | 63.5 | – | – |
| Qwen3-235B-A22B-Thinking | 85.7 | 81.5 | 62.5 | – | – |
| POLARIS-4B-Preview | 81.2 | 79.4 | 58.7 | – | – |
| ReTool-32B | 72.5 | 54.3 | – | – | – |
| rStar2-Agent-14B | 80.6 | 69.8 | 52.7 | – | – |
| DemyAgent-4B | 72.6 | 70.0 | 52.9 | † | 35.3 |
| ASTER-1.7B-SFT | 19.4 | 19.0 | 11.3 | 6.4 | – |
| ASTER-1.7B | 64.6 | 59.6 | 47.5 | 26.3 | – |
| ASTER-4B-SFT | 62.5 | 54.6 | 43.3 | 27.4 | – |
| ASTER-4B | 82.3 | 85.0 | 73.3 | 53.9 | – |
| ASTER-4B w/ 90K Inference Budget | 85.8 | 90.0 | 77.1 | 61.7 | – |
- 小さく相互作用密度の高いコールドスタートセット(4K軌道で9回超のツール相互作用を含む)が最も強い下流性能を生む。
- 相互作用密度はRL中の探索を維持するコールドスタートプリオリの鍵となる性質であり、インタラクション崩壊を防ぐ。
- トレーニング時のより高い相互作用予算は推論予算が大きい場合のテスト時スケーリングを改善する一方、推論予算が厳しい場合は制約付き相互作用予算で訓練されたモデルが有利となる。
- ASTER-4Bは数学ベンチマークで最先端の結果を達成し、特に 85.0% の AIME2025(90K 推論予算で 90.0% に到達)と大型モデルを上回る成果を示す。
- 90K の推論予算下でASTER-4Bは AIME2025で 90.0%、HMMT2025で 77.1%、BeyondAIMEで 61.7% を達成し、いくつかのより大きなベースラインを超える。
- コールドスタート後のトレーニングダイナミクスには初期の性能低下が見られるが、RLが進むにつれて回復し、長期的なツール使用が優れてくる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。