QUICK REVIEW

[논문 리뷰] ToolGym: an Open-world Tool-using Environment for Scalable Agent Testing and Data Curation

Ziqiao Xi, Shuang Liang|arXiv (Cornell University)|2026. 01. 09.

Software Testing and Debugging Techniques인용 수 0

한 줄 요약

ToolGym은 확장 가능한 오픈 월드 환경을 5,571개의 도구와 204개의 앱에 걸쳐 제공하며, 작업 생성 엔진과 상태 컨트롤러를 더해 장기 목표를 갖는 도구 사용 LLM 에이전트를 평가·학습시키고 강력한 데이터 큐레이션을 가능하게 한다.

ABSTRACT

Tool-using LLM agents still struggle in open-world settings with large tool pools, long-horizon objectives, wild constraints, and unreliable tool states. For scalable and realistic training and testing, we introduce an open-world tool-using environment, built on 5,571 format unified tools across 204 commonly used apps. It includes a task creation engine that synthesizes long-horizon, multi-tool workflows with wild constraints, and a state controller that injects interruptions and failures to stress-test robustness. On top of this environment, we develop a tool select-then-execute agent framework with a planner-actor decomposition to separate deliberate reasoning and self-correction from step-wise execution. Comprehensive evaluation of state-of-the-art LLMs reveals the misalignment between tool planning and execution abilities, the constraint following weakness of existing LLMs, and DeepSeek-v3.2's strongest robustness. Finally, we collect 1,170 trajectories from our environment to fine-tune LLMs, achieving superior performance to baselines using 119k samples, indicating the environment's value as both a realistic benchmark and a data engine for tool-using agents. Our code and data will be publicly released.

연구 동기 및 목표

다양한 도구와 긴 워크플로우를 갖춘 오픈 월드 설정에서 도구 사용 LLM 에이전트의 현실적이고 확장 가능한 평가의 필요성을 제시한다.
대규모 선별 도구 베이스, 거친 제약 하의 작업 합성, 실패를 시뮬레이션하기 위한 상태 컨트롤러를 갖춘 통합 환경으로 ToolGym을 소개한다.
장기 목표에서 추론과 실행을 분리하고 로버스트함을 높이기 위한 planner–actor 에이전트 프레임워크를 제안한다.
ToolGym 데이터를 사용해 모델을 효율적으로 미세 조정하고 제한된 데이터로도 성능을 향상시킬 수 있음을 입증한다.

제안 방법

276개의 MCP 서버에서 204개의 애플리케이션을 아우르는 5,571개의 도구를 하나의 MCP 형식으로 선별한다.
거친 제약 하에서 장기-수평의 멀티도구 워크플로우를 합성하기 위한 작업 생성 엔진을 개발한다.
실행 중 간섭과 실패를 주입하기 위한 상태 컨트롤러를 도입한다(도구 수준, 상태 수준, 제약 수준).
의도적 계획을 한 걸음 한 걸음의 실행과 분리하는 planner–actor 에이전트 프레임워크를 구현한다(Planner guides, Actor executes).
작업 성공과 제약 만족을 위한 LLM-as-judge 프로토콜을 사용하여 도구 검색, 계획 및 실행의 앙상블 루프로 다수의 LLM을 평가한다.
LLMs 미세 조정을 위한 1,170개의 궤적을 생성하는 자동화된 데이터 파이프라인을 만들고, 더 큰 데이터 세트로 학습된 기준선과 비교한다.

Figure 1: The overall framework of ToolGym . The pipeline begins with curating real-world MCP tools and synthesizing tasks with wild constraints (Left). The agent employs a Planner–Actor architecture to decompose long-horizon goals, where the Actor interacts with the environment via a State Controll

실험 결과

연구 질문

RQ1현재의 LLM이 크고 열린 도구 라이브러리를 사용해 장기 워크플로우를 얼마나 잘 계획하고 실행할 수 있는가?
RQ2오픈 월드 도구 환경에서 작동할 때 지배적인 실패 모드(계획, 실행, 제약 준수 중 어느 것)가 무엇인가?
RQ3planner–actor 분해가 도구 기반 작업의 강인성과 성공률을 향상시킬 수 있는가?
RQ4ToolGym의 궤적 데이터가 도구 사용을 위한 LLM의 다운스트림 튜닝을 얼마나 효율적으로 개선할 수 있는가?
RQ5ToolGym의 자동 데이터 생성이 도구 사용 에이전트를 위한 더 큰 인간 주석 데이터 체계를 능가하는가?

주요 결과

LLMs는 강한 계획 능력을 보이지만 실행 정렬이 약해 작업 성공에 차이가 생긴다.
제약 준수가 현재 모델의 주요 병목이다.
DeepSeek-v3.2는 중단 상황에서도 높은 회복력과 적응력을 보여 강력한 로버스트함을 입증한다.
도구 사용 비율이 높다고 해서 잠재적 추론 실패로 인해 성공률이 반드시 높아지지는 않는다.
1,170 ToolGym 궤적을 이용한 미세 조정은 119k 샘플로 학습된 기준선보다 우수한 성능을 보인다.
ToolGym 데이터는 평가와 데이터 큐레이션 모두에 효과적이고 데이터 효율적인 엔진으로 작동한다.

Figure 2: Five-dimensional personality radar charts of different MCP-based agents.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.