[論文レビュー] Yunque DeepResearch Technical Report
Yunque DeepResearchは、中央オーケストレーション、動的コンテキスト管理、積極的な監督によって長期のロバストな深層研究を可能にする階層的・モジュール型のマルチエージェントフレームワークであり、複数のエージェントベンチマークで最先端の結果を達成します。
Deep research has emerged as a transformative capability for autonomous agents, empowering Large Language Models to navigate complex, open-ended tasks. However, realizing its full potential is hindered by critical limitations, including escalating contextual noise in long-horizon tasks, fragility leading to cascading errors, and a lack of modular extensibility. To address these challenges, we introduce Yunque DeepResearch, a hierarchical, modular, and robust framework. The architecture is characterized by three key components: (1) a centralized Multi-Agent Orchestration System that routes subtasks to an Atomic Capability Pool of tools and specialized sub-agents; (2) a Dynamic Context Management mechanism that structures completed sub-goals into semantic summaries to mitigate information overload; and (3) a proactive Supervisor Module that ensures resilience through active anomaly detection and context pruning. Yunque DeepResearch achieves state-of-the-art performance across a range of agentic deep research benchmarks, including GAIA, BrowseComp, BrowseComp-ZH, and Humanity's Last Exam. We open-source the framework, reproducible implementations, and application cases to empower the community.
研究の動機と目的
- 既存の深層研究エージェントにおける認知負荷、脆弱性、モジュール拡張性の欠如を解決する。
- Atomic Capability PoolとMain Agentを介して計画と行動を分離する階層的アーキテクチャを提案する。
- 長期的な推論を維持するための動的なサブゴールベースの記憶とコンテキスト管理を開発する。
- 異常検知、コンテキスト剪定、自己修正を行うSupervisorモジュールを導入し堅牢性を向上させる。
- フレームワークをオープンソース化し、再現可能な実装と応用を提供する。
提案手法
- Main Agent、Context Manager、Atomic Capability Pool、Supervisor の四モジュールアーキテクチャを導入する。
- 中央集権的なMain Agentを用いてユーザー意図を分解し、基本ツールや専門サブエージェントへ動的ディスパッチでタスクをルーティングする。
- Structured Memory GenerationとDynamic Context Managementを実装し、長期的な軌跡を意味論的サブゴールへ圧縮する。
- 専門サブエージェント(例:Browser-Use GUI Agent、Data Analysis Agent)と基本ツールを含むAtomic Capability Poolを作成する。
- 適応型のSupervisorを組み込み、異常診断、軌跡剪定、再生成を行い故障から回復する。
- GAIA、BrowseComp、BrowseComp-ZH、 Humanity’s Last ExamをPass@1およびPass@N指標で評価する。
実験結果
リサーチクエスチョン
- RQ1長期的タスクでの堅牢性とスケーラビリティを改善するモジュール式・階層的アーキテクチャは実現可能か。
- RQ2動的 memory管理はエージェント推論における情報過負荷とタスク忠実度にどのように影響するか。
- RQ3専門サブエージェントとオーケストレーション層は多様なベンチマークでの性能をどの程度向上させるか。
主な発見
| Benchmarks | BrowseComp | BrowseComp-ZH | GAIA | Humanity’s Last Exam | Model |
|---|---|---|---|---|---|
| Yunque DeepResearch | 62.5 | 75.9 | 78.6 | 51.7 | Gemini |
- Yunque DeepResearchはBrowseComp、BrowseComp-ZH、 Humanity’s Last Examのベンチマークで最先端の結果を達成し、バックボーンとしてGeminiを使用すると62.5、75.9、51.7をそれぞれ達成。
- GAIAでは78.6を達成し、評価されたモデルの中で2位にランクイン。
- 基本モデルの性能を顕著に向上させ、ベンチマーク全体でバックボーン非依存の改善を示す(例:Gemini 3 Pro)。
- アブレーション研究により、記憶、 Supervisor、専門エージェントが重要であり、記憶またはSupervisorを削除すると顕著な性能低下が生じ、専門エージェントの削除も結果を低下させる。
- フレームワークは完成済みサブゴールを構造化された記憶に折りたむことで長期的な推論を可能にし、文脈爆発を抑えつつロバスト性を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。