[논문 리뷰] TodoEvolve: Learning to Architect Agent Planning Systems
TodoEvolve는 PlanFactory를 도입해 작업별 계획 아키텍처를 합성하고 Impedance-Guided Preference Optimization을 통해 계획 토폴로지, 초기화, 적응성, 내비게이션을 최적화한다.
Planning has become a central capability for contemporary agent systems in navigating complex, long-horizon tasks, yet existing approaches predominantly rely on fixed, hand-crafted planning structures that lack the flexibility to adapt to the structural diversity of open-ended problems. To address this limitation, we introduce TodoEvolve, a meta-planning paradigm that autonomously synthesizes and dynamically revises task-specific planning architectures. Specifically, we first construct PlanFactory, a modular design space that standardizes diverse planning paradigms within a unified codebase encompassing topology, initialization, adaptation, and navigation, thereby providing a common interface for heterogeneous planning patterns. Leveraging PlanFactory, we collect high-quality planning trajectories and train Todo-14B via extit{Impedance-Guided Preference Optimization} (IGPO), a multi-objective reinforcement learning objective that encourages the generation of planning systems that are performant, stable, and token-efficient across arbitrary tasks and agent backbones. Empirical evaluations on five agentic benchmarks demonstrate that TodoEvolve consistently surpasses carefully engineered planning modules while maintaining economical API costs and runtime overhead.
연구 동기 및 목표
- 고정된 수작업 설계자(hand-crafted planners)를 넘어서는 개방형(open-ended) 작업에서 적응 가능한 계획 아키텍처의 필요성에 대한 동기 부여.
- PlanFactory를 다양한 계획 토폴로지와 메커니즘을 위한 통합 설계 공간으로 제안한다.
- IGPO를 통해 Todo-14B를 개발하여 계획 성능, 안정성, 토큰 효율을 함께 최적화한다.
- 여러 에이전트 벤치마크에서 교차 도메인 일반화와 파레토 효율성을 입증한다.
제안 방법
- PlanFactory를 네 모듈: Topology, Initialization, Adaptation, 그리고 Navigation으로 정의하여 다양한 계획자를 위한 통합 코드베이스를 가능하게 한다.
- 대표적인 열 가지 계획 아키텍처를 PlanFactory 프리미티브로 분해하여 모듈식 설계 공간을 만든다.
- 작업별 계획 구성을 합성하고 실행 중에 동적으로 수정하는 메타-계획자 TodoEvolve를 도입한다.
- Impedance-Guided Preference Optimization(IGPO)으로 Todo-14B를 훈련시켜 성능, 안정성, 토큰 효율의 다목적 목표를 균형 있게 최적화한다.
- PlanFactory 내에서 Execution-as-Judge로 검증하고 impedance 기반 랭킹으로 IGPO를 주도하는 고품질 계획 데이터셋을 Bootstrap-and-Filter로 구축한다.
- 두 단계 학습 체제를 사용: Stage 1 SFT로 구조적 역량을 주입하고 Stage 2 IGPO로 아키텍처 효율성을 최적화한다.

실험 결과
연구 질문
- RQ1메타-플래닝 모델이 다양한 도메인에서 고정 플래너를 능가하는 작업별 계획 아키텍처를 합성할 수 있는가?
- RQ2통합 PlanFactory 코드베이스가 이종 계획 패러다임의 효율적 벤치마킹과 비교를 지원하는가?
- RQ3IGPO가 다른 백본에서도 성능을 유지하면서 계획의 효율성과 안정성을 신뢰성 있게 향상시키는가?
- RQ4TodoEvolve가 개방형의 긴 호(Horizon) 작업과 다양한 에이전트 백본에 어떻게 일반화되는가?
주요 결과
- TodoEvolve는 다섯 벤치마크에서 세심하게 엔지니어링된 계획 모듈에 비해 상당한 성능 향상을 보이며, 예를 들어 GPT-5-Mini에서 GAIA에서 최대 16.37% 개선.
- TodoEvolve는 다양한 LLM 백본에 대해 일반화하여 보고된 설정에서 xBench-DS에서 GPT-5-Mini의 성능을 75%로 끌어올렸다.
- TodoEvolve는 고복잡도 GAIA 레벨 3 시나리오에서 DeepSeek V3.2와 함께 53.85%를 달성하며 더 강력한 에이전트의 성능에 근접하는 robustness를 보여준다.
- 프레임워크는 비교적 비용과 지연 시간을 복잡한 강력한 베이스라인과 비슷하게 유지하면서 더 높은 성공률을 제공하여 파레토 효율성이 우수함을 시사한다.
- 아블레이션 연구에서 SFT가 구조적 근거를 형성하는 데 필수적이며 IGPO는 효율성과 장기 계획 능력을 향상시킨다.
- 사례 연구는 작업 진화에 적응하고 접근 장벽을 예측하는 동적이며 상태 인식형 계획 토폴로지가 어떻게 나타나는지 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.