QUICK REVIEW

[논문 리뷰] RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents

Jialiang Zhu, Gongrui Zhang|arXiv (Cornell University)|2026. 02. 02.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

RE-TRAC은 ReAct 스타일의 심층 탐색 에이전트에 재귀적 궤적 압축을 도입하여 궤적 간 반영을 가능하게 하고 전 세계적으로 정보를 반영한 계획 수립을 촉진하여 긴 시퀀스의 탐색 성능을 향상시킨다; BrowseComp에서 frontier LLMs와 함께 15–20%의 이득을 달성하고 소형 모델용 학습 레시피를 제시한다.

ABSTRACT

LLM-based deep research agents are largely built on the ReAct framework. This linear design makes it difficult to revisit earlier states, branch into alternative search directions, or maintain global awareness under long contexts, often leading to local optima, redundant exploration, and inefficient search. We propose Re-TRAC, an agentic framework that performs cross-trajectory exploration by generating a structured state representation after each trajectory to summarize evidence, uncertainties, failures, and future plans, and conditioning subsequent trajectories on this state representation. This enables iterative reflection and globally informed planning, reframing research as a progressive process. Empirical results show that Re-TRAC consistently outperforms ReAct by 15-20% on BrowseComp with frontier LLMs. For smaller models, we introduce Re-TRAC-aware supervised fine-tuning, achieving state-of-the-art performance at comparable scales. Notably, Re-TRAC shows a monotonic reduction in tool calls and token usage across rounds, indicating progressively targeted exploration driven by cross-trajectory reflection rather than redundant search.

연구 동기 및 목표

긴 시퀀스의 심층 연구 과제에서 선형 ReAct 추론의 한계들(예: 불완전한 분기, 망각, 국소 최적해)을 해결한다.
궤적 간 반영 및 증거, 불확실성, 실패, 미래 계획의 통합을 가능하게 한다.
후속 궤적을 조건지하고 재귀적 글로벌 계획을 가능하게 하는 구조화된 상태 표현을 제공한다.
frontier 모델을 사용하여 BrowseComp 및 관련 벤치마크에서 이득을 시연하고, 소형 모델을 위한 학습 레시피를 제시한다.
Re-TRAC가 라운드에 걸쳐 토큰/도구 사용량을 줄이는 테스트 시점 확장 방법으로 작용할 수 있음을 보인다.

제안 방법

각 롤아웃 후 궤적 압축을 도입하여 고정된 압축 규격 C를 통해 구조화된 상태 S_t를 생성한다.
S_t를 세 가지 측면으로 정의한다: (i) Answer & Conclusions, (ii) Evidence Base & Verification, (iii) Uncertainties & Exploration Trace.
각 새로운 롤아웃이 이전 라운드에서 축적된 상태 S_t를 조건으로 삼아 재귀적으로 롤아웃을 실행한다.
테스트 시점에 모델 미세조정 없이 프롬프팅 전략으로 Re-TRAC를 적용하고, 최종 정답을 산출할 때까지 N 라운드(기본값 8)까지 반복한다.
소형 모델의 경우 Re-TRAC 궤적에서 SFT 데이터를 생성하여 구조화된 궤적 간 요약에 근거한 추론을 학습하는 모델을 훈련한다.

실험 결과

연구 질문

RQ1궤적 압축이 긴 시퀀스 작업에서 궤적 간 지식 통합을 가능하게 하고 불완전한 분기를 줄일 수 있는가?
RQ2Re-TRAC가 각 라운드에서 정확도를 유지하거나 향상시키면서 효율성(도구 호출 및 토큰 수)을 개선할 수 있는가?
RQ3SFT로 학습되거나 프롬프트되는 경우 작은 모델이 최첨단 성능에 근접하거나 경쟁력 있는 성능을 달성할 수 있는가?
RQ4BrowseComp 및 관련 벤치마크에서 MV, WV, Best-of-N 등 다른 테스트 시점 확장 방법과 Re-TRAC의 비교는 어떠한가?

주요 결과

모델	BrowseComp	BrowseComp-ZH	GAIA	XBench	HLE
Claude-4.5-Sonnet	24.1	42.4	71.2	66.0	32
o3	49.7	58.1	70.5	66.7	24.9
OpenAI DeepResearch	51.5	42.9	67.4	-	26.6
GPT-5-high	54.9	63.0	76.7	77.9	42
Gemini-3-pro	37.8	51.6	74.8	-	38.3
Kimi-K2-Thinking-1T	60.2	62.3	-	-	51.0
DeepSeek-V3.2-Thinking-685B	67.6	65.0	-	-	40.8
GLM-4.7-358B	52.0	66.6	-	-	42.8
MiniMax-M2-229B	44.0	48.5	75.7	72.0	31.8
Tongyi-DeepResearch-30B-A3B	43.4	46.7	70.9	75.0	32.9
IterResearch-30B-A3B	37.3	45.2	72.8	-	28.8
WebSailor-V2-30B-A3B (RL)	35.3	44.1	74.1	73.7	30.6
RE-TRAC-30B-A3B (Ours)	53.0	57.3	78.2	83.0	31.5
InfoAgent-14B	15.3	29.2	-	40.4	-
WebExplorer-8B	15.7	32.0	50.0	53.7	17.3
AgentCPM-Explore-4B	25.0	29.0	63.9	70.0	19.1
NestBrowse-4B	22.4	28.4	68.9	74.0	-
RE-TRAC-4B (Ours)	30.0	36.1	70.4	76.6	22.2

Re-TRAC은 frontier LLMs를 사용할 때 BrowseComp에서 ReAct 대비 절대 이득 15–20%를 달성한다.
30B RE-TRAC-A3B 모델은 BrowseComp에서 53% 정확도를 달성하고, 4B RE-TRAC 모델은 30%를 달성하여 유사 규모의 여러 베이스라인보다 우월하다.
Re-TRAC은 라운드마다 도구 호출과 토큰 사용을 단조롭게 감소시키며 궤적 간 반영에 의해 더 표적화된 탐색이 이루어짐을 시사한다.
구조화된 상태 표현에 근거한 SFT 데이터로 소형 모델은 유사 규모에서 최첨단 성능에 도달한다(예: RE-TRAC-4B 및 RE-TRAC-30B-A3B).
훈련 없이도 테스트 시점 확장 방법으로서 RE-TRAC은 여러 모델에서 최상위 또는 경쟁력 있는 결과를 낳고, 다른 TTS 방법에 비해 자원 사용이 감소한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.