[论文解读] TodoEvolve: Learning to Architect Agent Planning Systems
TodoEvolve 引入 PlanFactory 来综合任务特定的规划体系,并通过 Impedance-Guided Preference Optimization 训练 Todo-14B,以优化规划拓扑、初始化、适应与导航。
Planning has become a central capability for contemporary agent systems in navigating complex, long-horizon tasks, yet existing approaches predominantly rely on fixed, hand-crafted planning structures that lack the flexibility to adapt to the structural diversity of open-ended problems. To address this limitation, we introduce TodoEvolve, a meta-planning paradigm that autonomously synthesizes and dynamically revises task-specific planning architectures. Specifically, we first construct PlanFactory, a modular design space that standardizes diverse planning paradigms within a unified codebase encompassing topology, initialization, adaptation, and navigation, thereby providing a common interface for heterogeneous planning patterns. Leveraging PlanFactory, we collect high-quality planning trajectories and train Todo-14B via extit{Impedance-Guided Preference Optimization} (IGPO), a multi-objective reinforcement learning objective that encourages the generation of planning systems that are performant, stable, and token-efficient across arbitrary tasks and agent backbones. Empirical evaluations on five agentic benchmarks demonstrate that TodoEvolve consistently surpasses carefully engineered planning modules while maintaining economical API costs and runtime overhead.
研究动机与目标
- 在开放任务中显示可适应的规划体系相较固定的人工设计规划器的必要性。
- 提出 PlanFactory 作为多样化规划拓扑和机制的统一设计空间。
- 通过 IGPO 联合优化 Todo-14B 的规划性能、稳定性与令牌效率。
- 证明在多个代理基准上实现跨领域泛化与帕累托效率。
提出的方法
- 将 PlanFactory 定义为四个模块:拓扑(Topology)、初始化(Initialization)、适应(Adaptation)和导航(Navigation),为多样化的规划器提供统一代码库。
- 将十种代表性规划架构分解为 PlanFactory 的原语,创建模块化设计空间。
- 引入 TodoEvolve,一种元规划器,在执行过程中综合任务特定的规划配置并动态修订它们。
- 以 Impedance-Guided Preference Optimization(IGPO)训练 Todo-14B,采用多目标优化来平衡性能、稳定性与令牌效率。
- 在 PlanFactory 内通过 Bootstrap-and-Filter 构建高质量的规划数据集,利用 Execution-as-Judge 进行验证,并以基于阻抗的排序驱动 IGPO。
- 使用两阶段训练方案:阶段1 进行 SFT 以灌输结构能力,阶段2 进行 IGPO 以优化体系结构效率。)

实验结果
研究问题
- RQ1元规划模型是否可以合成任务特定的规划架构,在多样域中超越固定规划器?
- RQ2统一的 PlanFactory 代码库是否支持对异构规划范式的高效基准测试与比较?
- RQ3IGPO 是否在不同骨架上可靠地提升规划效率和稳定性,同时保持性能?
- RQ4TodoEvolve 在开放式、长时程任务及不同代理骨架下的泛化能力如何?
主要发现
- TodoEvolve 在五个基准上相较于精心设计的规划模块获得显著性能提升,例如在 GAIA 上对 GPT-5-Mini 的提升可达 16.37%。
- TodoEvolve 可以在多样的 LLM 骨架上泛化,在 xBench-DS 的设置中将 GPT-5-Mini 的表现提升至 75%。
- TodoEvolve 在高复杂度 GAIA Level 3 场景中表现出鲁棒性,使用 DeepSeek V3.2 达到 53.85%,接近更强大代理的性能。
- 该框架在成本与延迟方面保持与高阶基线相当,同时实现更高的成功率,表明具备良好的帕累托效率。
- 消融研究表明 SFT 对结构性基础至关重要,而 IGPO 提高了效率和长时程规划能力。
- 案例研究展示了动态、状态感知的计划拓扑,能够对任务演化做出自适应并预测访问障碍。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。