[논문 리뷰] Agentic Reasoning: A Streamlined Framework for Enhancing LLM Reasoning with Agentic Tools
Agentic Reasoning은 외부 에이전트(웹 검색, 코딩, Mind Map 메모리)를 통합하여 다단계의 도구-보강 추론을 수행하고, 전문가 수준의 과제에서 여러 베이스라인을 능가하도록 LLM 추론을 향상시킵니다.
We introduce Agentic Reasoning, a framework that enhances large language model (LLM) reasoning by integrating external tool-using agents. Agentic Reasoning dynamically leverages web search, code execution, and structured memory to address complex problems requiring deep research. A key innovation in our framework is the Mind-Map agent, which constructs a structured knowledge graph to store reasoning context and track logical relationships, ensuring coherence in long reasoning chains with extensive tool usage. Additionally, we conduct a comprehensive exploration of the Web-Search agent, leading to a highly effective search mechanism that surpasses all prior approaches. When deployed on DeepSeek-R1, our method achieves a new state-of-the-art (SOTA) among public models and delivers performance comparable to OpenAI Deep Research, the leading proprietary model in this domain. Extensive ablation studies validate the optimal selection of agentic tools and confirm the effectiveness of our Mind-Map and Web-Search agents in enhancing LLM reasoning. The code is at: https://github.com/theworldofagents/Agentic-Reasoning
연구 동기 및 목표
- 외부 도구를 통합하여 내부 추론을 넘어 LLM 추론을 개선하는 것을 촉진한다.
- 깊은 연구 작업을 지원하기 위해 웹 검색, 코드 실행, 구조화된 메모리를 조정하는 프레임워크를 도입한다.
- Agentic Reasoning이 전문가 수준의 QA 및 실제 연구 작업에서 정확도와 효율성을 향상시킨다는 것을 보인다.
제안 방법
- 전용 토큰을 통해 웹 검색, 코딩, Mind Map 메모리를 트리거하도록 LLM이 외부 에이전트와 상호작용하는 Agentic Reasoning을 제안한다.
- Reasoning 체인에서 추출된 구조화된 지식 그래프로 Mind Map을 graph-RAG 접근법으로 구축한다.
- 코딩 에이전트를 사용하여 별도의 LLM과 컴파일러를 통해 코드를 생성하고 실행하며 추론에 필요한 결과를 반환한다.
- 일반 작업의 핵심 외부 도구로 웹 검색과 코딩에 도구 세트를 제한하고, Mind Map이 구조화된 메모리와 질의를 가능하게 한다.
- 연속적 추론 및 답변 생성을 포함한 P(r,a|o,q,e,k)로 추론 과정을 형식화한다.
- 도구 사용을 테스트 시 검증기로 삼아 best-of-N 스타일 선택을 시연하여 로버스트한 추론 전략을 강화한다.

실험 결과
연구 질문
- RQ1외부 도구를 LLM 추론에 어떻게 통합하여 복잡하고 다단계 문제 해결을 향상시킬 수 있는가?
- RQ2Mind Map 지식 그래프가 연역적 추론과 오도성 프롬프트에 대한 회복력을 향상시키는가?
- RQ3웹 검색 및 코딩 에이전트가 전문가 수준 QA 및 심층 연구 작업에 미치는 영향은 무엇인가?
- RQ4도구 기반 추론을 테스트 시점에서 best-of-N 선택이나 검증자와 같은 메커니즘으로 확장할 수 있는가?
주요 결과
- Agentic Reasoning은 GPQA에서 강한 성능을 달성합니다: Physics 88.1, Chemistry 58.3, Biology 79.6, GPQA 데이터셋에서 Our의 성능과 대조군 대비.
- GPQA Extended Set에서 Agentic Reasoning은 75.2 (Phy), 53.1 (Chem), 72.8 (Bio)로 점수를 기록하며 보고된 비교에서 인간 전문가를 능가합니다.
- 깊은 연구 평가에서 Agentic Reasoning은 Finance, Medicine, Law 도메인에서 Gemini Deep Research를 능가합니다(전문가 보고서 기준 합격률 기반).
- 테스트 시점의 추론은 도구 사용이 질문당 성능과 양의 상관을 보이며, best-of-N 검증을 강건한 추론 전략으로 뒷받침합니다.
- Mind Map은 특히 까다로운 논리 문제와 전략적 게임 시나리오(예: Werewolf)에서 연역 정확도와 전략적 추론을 향상시키는 것으로 입증됩니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.