[論文レビュー] RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents
RE-TRACは再帰的軌跡圧縮を導入し、ReActスタイルの深部探索エージェントの軌跡間反省と全局的な計画を可能にすることで長期探索性能を向上させる。Frontier LLMs を用いた BrowseComp で 15–20%の改善を達成し、小規模モデルのトレーニングレシピを提供。
LLM-based deep research agents are largely built on the ReAct framework. This linear design makes it difficult to revisit earlier states, branch into alternative search directions, or maintain global awareness under long contexts, often leading to local optima, redundant exploration, and inefficient search. We propose Re-TRAC, an agentic framework that performs cross-trajectory exploration by generating a structured state representation after each trajectory to summarize evidence, uncertainties, failures, and future plans, and conditioning subsequent trajectories on this state representation. This enables iterative reflection and globally informed planning, reframing research as a progressive process. Empirical results show that Re-TRAC consistently outperforms ReAct by 15-20% on BrowseComp with frontier LLMs. For smaller models, we introduce Re-TRAC-aware supervised fine-tuning, achieving state-of-the-art performance at comparable scales. Notably, Re-TRAC shows a monotonic reduction in tool calls and token usage across rounds, indicating progressively targeted exploration driven by cross-trajectory reflection rather than redundant search.
研究の動機と目的
- 長期的なリサーチタスクにおける線形なReAct推論の制約(不完全な分岐、忘却、局所的最適解など)に対処する。
- 軌跡間の反省と証拠・不確実性・失敗・将来計画の統合を可能にする。
- 後続の軌跡を条件付けし再帰的・全局的な計画を可能にする構造化された状態表現を提供する。
- Frontierモデルを用いたBrowseCompおよび関連ベンチマークでの利得を示し、小規模モデル向けのトレーニングレシピを示す。
- Re-TRACはテスト時スケーリング手法として機能し、ラウンドごとのトークン/ツール使用を削減することができる。
提案手法
- 各ロールアウト後に軌跡圧縮を導入して、固定圧縮仕様Cによる構造化された状態S_tを作成する。
- S_tは三つの側面で定義する: (i) 回答と結論、(ii) 証拠基盤と検証、(iii) 不確実性と探索トレース。
- 各新しいロールアウトが前のラウンドから累積された状態S_tを条件付けとして用いるように再帰的にロールアウトを実行する。
- モデルの微調整を行わずにテスト時にRe-TRACをプロンプト戦略として適用し、最終回答を生成するまでNラウンド(デフォルト8)繰り返す。
- 小規模モデルについては、Re-TRAC軌跡からSFTデータを生成して、構造化された軌跡間要約に基づく推論を地盤とするモデルを訓練する。
実験結果
リサーチクエスチョン
- RQ1軌跡圧縮は軌跡間の知識の統合を促進し、長期タスクにおける不完全な分岐を減らすことができるか。
- RQ2Re-TRACはラウンドを通じて効率性(ツール呼び出しとトークン数の削減)を改善しつつ、精度を維持または向上できるか。
- RQ3SFTでRe-TRAC軌跡を用いて訓練・プロンプト設定した場合、より小さなモデルが最先端または競合的な結果を達成できるか。
- RQ4BrowseCompおよび関連ベンチマークにおいて、MV・WV・Best-of-Nなどの他のテスト時スケーリング手法と比較して、Re-TRACはどうか。
主な発見
| Model | BrowseComp | BrowseComp-ZH | GAIA | XBench | HLE |
|---|---|---|---|---|---|
| Claude-4.5-Sonnet | 24.1 | 42.4 | 71.2 | 66.0 | 32 |
| o3 | 49.7 | 58.1 | 70.5 | 66.7 | 24.9 |
| OpenAI DeepResearch | 51.5 | 42.9 | 67.4 | - | 26.6 |
| GPT-5-high | 54.9 | 63.0 | 76.7 | 77.9 | 42 |
| Gemini-3-pro | 37.8 | 51.6 | 74.8 | - | 38.3 |
| Kimi-K2-Thinking-1T | 60.2 | 62.3 | - | - | 51.0 |
| DeepSeek-V3.2-Thinking-685B | 67.6 | 65.0 | - | - | 40.8 |
| GLM-4.7-358B | 52.0 | 66.6 | - | - | 42.8 |
| MiniMax-M2-229B | 44.0 | 48.5 | 75.7 | 72.0 | 31.8 |
| Tongyi-DeepResearch-30B-A3B | 43.4 | 46.7 | 70.9 | 75.0 | 32.9 |
| IterResearch-30B-A3B | 37.3 | 45.2 | 72.8 | - | 28.8 |
| WebSailor-V2-30B-A3B (RL) | 35.3 | 44.1 | 74.1 | 73.7 | 30.6 |
| RE-TRAC-30B-A3B (Ours) | 53.0 | 57.3 | 78.2 | 83.0 | 31.5 |
| InfoAgent-14B | 15.3 | 29.2 | - | 40.4 | - |
| WebExplorer-8B | 15.7 | 32.0 | 50.0 | 53.7 | 17.3 |
| AgentCPM-Explore-4B | 25.0 | 29.0 | 63.9 | 70.0 | 19.1 |
| NestBrowse-4B | 22.4 | 28.4 | 68.9 | 74.0 | - |
| RE-TRAC-4B (Ours) | 30.0 | 36.1 | 70.4 | 76.6 | 22.2 |
- Re-TRACはFrontierモデルを用いたBrowseCompでReActより絶対値で15–20%の改善を達成。
- 30BのRE-TRAC-A3BモデルはBrowseCompで53%の精度を達成し、4BのRE-TRACモデルは30%を達成、同等サイズのいくつかのベースラインを上回る。
- 軌跡間反省に基づくより狭い探索を指向することで、ラウンドを経るごとにツール呼び出しとトークン使用が単調に減少することを示す。
- 構造化された状態表現に基づくSFTデータを用いると、小規模モデルでも同等規模で最先端性能に近づく(例:RE-TRAC-4BおよびRE-TRAC-30B-A3B)。
- トレーニング不要のテスト時スケーリング手法として、複数のモデルで最良または競合的な結果を示し、他のTTS手法と比較してリソース使用を削減する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。