[論文レビュー] From Intent to Evidence: A Categorical Approach for Structural Evaluation of Deep Research Agents
本論文はカテゴリ理論を用いて Deep Research Agents (DRA) を形式化し、DRAの構造 preservation 能力を4つの軸でストレステストする296問のベンチマークを導入する。これにより、マルチホップ構造合成における強い制限が明らかになる。
Although deep research agents (DRAs) have emerged as a promising paradigm for complex information synthesis, their evaluation remains constrained by ad hoc empirical benchmarks. These heuristic approaches do not rigorously model agent behavior or adequately stress-test long-horizon synthesis and ambiguity resolution. To bridge this gap, we formalize DRA behavior through the lens of category theory, modeling deep research workflow as a composition of structure-preserving maps (functors). Grounded in this theoretical framework, we introduce a novel mechanism-aware benchmark with 296 questions designed to stress-test agents along four interpretable axes: traversing sequential connectivity chains, verifying intersections within V-structure pullbacks, imposing topological ordering on retrieved substructures, and performing ontological falsification via the Yoneda Probe. Our rigorous evaluation of 11 leading models establishes a persistently low baseline, with the state-of-the-art achieving only a 19.9\% average accuracy, exposing the difficulty of formal structural stress-testing. Furthermore, our findings reveal a stark dichotomy in the current AI capabilities. While advanced deep research pipelines successfully redefine dynamic topological re-ordering and exhibit robust ontological verification -- matching pure reasoning models in falsifying hallucinated premises -- they almost universally collapse on multi-hop structural synthesis. Crucially, massive performance variance across tasks exposes a lingering reliance on brittle heuristics rather than a systemic understanding. Ultimately, this work demonstrates that while top-tier autonomous agents can now organically unify search and reasoning, achieving a generalized mastery over complex structural information remains a formidable open challenge.\footnote{Our implementation will be available at https://github.com/tzq1999/CDR.
研究の動機と目的
- アドホックなベンチマークを超えた、厳密で理論に基づくDRA評価の必要性を動機づける。
- DRAの挙動と状態空間のカテゴリー理論的 formalization を導入する。
- 長期的な合成と曖昧さ解決をストレステストする機構認識ベンチマークを提案する。
- 複数モデルにわたるエージェント性能を定量化し、構造的な強みと弱点を明らかにする。
提案手法
- DRAの挙動を、カテゴリ的状態空間間の構造保存ファンターの列としてモデル化する(クエリ、ウェブ、取得サブグラフ、推論)。
- 検証と集約タスクを捉えるために、厳密なカテゴリー論的概念(プルバック、極限/共極限)を定義する。
- 四軸に沿って組織された296問ベンチマークを設計する:逐次的接続性、V-構造の交差、サブ構造の再配置、Yonedaプローブによる存在論的検証。
- 人間が検証した評価パイプラインを用いて、推論・検索補助・自律DRAの11モデルを評価する。
実験結果
リサーチクエスチョン
- RQ1カテゴリー理論的抽象はDRAの検索と推論ワークフローを忠実にモデル化できるか。
- RQ2検索と推論タスクの過程でファンクターを介した構造関係を現在のモデルはどれほど維持できるか。
- RQ3長期的合成と曖昧さ解決の下でDRAの主な故障モードは何か。
- RQ4DRAは強い存在論的検証を示すか、それともタスク間で壊れやすいヒューリスティクスに依存しているか。
- RQ5提案された4つのカテゴリ的評価軸の間で性能はどのように変化するか。
主な発見
| Benchmark | Sequential Tracing (Chains) | Multi-Source Synthesis (Pullbacks) | Substructure Disentanglement (Re-ordering) | Ontological Probing (Yoneda) | Theory-Based | |
|---|---|---|---|---|---|---|
| Theory-Based | ;; BrowseComp | ✗ | ✗ | ✗ | ✗ | |
| WebShaper | ✓ | ✓ | ✗ | ✗ | ✓ | |
| DeepResearch Bench | ✓ | ✓ | ✗ | ✗ | ✗ | |
| Finance Agent Benchmark | ✓ | ✓ | ✗ | ✗ | ✗ | |
| FinSearchComp | ✓ | ✓ | ✗ | ✗ | ✗ | |
| Ours | ✓ | ✓ | ✓ | ✓ | ✓ |
- 最先端モデルはベンチマークで平均精度19.9%にとどまる。
- 高度なDRAパイプラインは、動的なトポロジー再配置と存在論的検証に強みを示し、仮説の整合性検証において純粋な推論モデルに匹敵する。
- モデルは一般にマルチホップ構造合成で失敗し、特定の数学的制約下で盲点を示す。
- タスクとモデル間で大きな性能変動があり、系統的理解よりヒューリスティクスに依存していることを示す。
- 複雑な構造情報に対する一般化された習熟をDRAで達成することは依然として大きな未解決課題である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。