[论文解读] Yunque DeepResearch Technical Report
Yunque DeepResearch 是一个分层、模块化的多智能体框架,通过集中编排、动态上下文管理和主动监督实现对长远深度研究的鲁棒性,在若干代理基准测试中取得了最先进的结果。
Deep research has emerged as a transformative capability for autonomous agents, empowering Large Language Models to navigate complex, open-ended tasks. However, realizing its full potential is hindered by critical limitations, including escalating contextual noise in long-horizon tasks, fragility leading to cascading errors, and a lack of modular extensibility. To address these challenges, we introduce Yunque DeepResearch, a hierarchical, modular, and robust framework. The architecture is characterized by three key components: (1) a centralized Multi-Agent Orchestration System that routes subtasks to an Atomic Capability Pool of tools and specialized sub-agents; (2) a Dynamic Context Management mechanism that structures completed sub-goals into semantic summaries to mitigate information overload; and (3) a proactive Supervisor Module that ensures resilience through active anomaly detection and context pruning. Yunque DeepResearch achieves state-of-the-art performance across a range of agentic deep research benchmarks, including GAIA, BrowseComp, BrowseComp-ZH, and Humanity's Last Exam. We open-source the framework, reproducible implementations, and application cases to empower the community.
研究动机与目标
- 解决现有深度研究智能体的认知过载、脆弱性以及缺乏模块化可扩展性的问题。
- 提出一种分层架构,通过原子能力池(Atomic Capability Pool)和主智能体(Main Agent)将计划与行动解耦。
- 开发动态、基于子目标的记忆与上下文管理,以支撑长远推理。
- 引入监督(Supervisor)模块进行异常检测、上下文修剪与自我纠正以提升鲁棒性。
- 开源框架并提供可重复实现与应用。
提出的方法
- 提出四模块架构:主智能体、上下文管理器、原子能力池、监督器。
- 使用集中式主智能体将用户意图分解并通过动态调度将任务路由到基本工具或专门的子智能体。
- 实现结构化记忆生成和动态上下文管理,将长远轨迹压缩为语义子目标。
- 创建带有专业子智能体(如浏览器使用图形界面代理、数据分析代理)和基础工具的原子能力池。
- 加入自适应监督器,具备异常诊断、轨迹修剪与再生能力,以从故障中恢复。
- 在 GAIA、BrowseComp、BrowseComp-ZH 和 Humanity’s Last Exam 上以 Pass@1 与 Pass@N 指标进行评估。
实验结果
研究问题
- RQ1模块化、分层架构是否能提升长时任务中深度研究智能体的鲁棒性与可扩展性?
- RQ2动态记忆管理如何影响信息过载与代理推理的任务保真度?
- RQ3专门化子智能体与编排层在多样基准上的性能提升程度如何?
主要发现
| Benchmarks | BrowseComp | BrowseComp-ZH | GAIA | Humanity’s Last Exam | Model |
|---|---|---|---|---|---|
| Yunque DeepResearch | 62.5 | 75.9 | 78.6 | 51.7 | Gemini |
- Yunque DeepResearch 在 BrowseComp、BrowseComp-ZH、Humanity’s Last Exam 基准测试上取得了最先进的结果,分别在使用 Gemini 作为骨干时达到 62.5、75.9、51.7。
- 在 GAIA 上达到 78.6,居被评估模型的第二位。
- 在基线模型(如 Gemini 3 Pro)上通过显著幅度提升各基准的表现,展示出对骨干独立性强的改进。
- 消融研究表明记忆、监督器和专门化代理至关重要;移除记忆或监督器会导致显著性能下降,移除专门化代理也会降低结果。
- 该框架通过将完成的子目标折叠入结构化记忆,保持鲁棒性并降低上下文爆炸,使长远推理在不随历史线性增长的情况下可行。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。