[論文レビュー] Orchestrating Specialized Agents for Trustworthy Enterprise RAG
ADORE は線形 RAG を適応的オーケストレーターと専門エージェントに置換え、Memory Bank を用いて長文の企業レポートを grounding し、主張と証拠に基づく終端を追跡可能にする。
Retrieval-Augmented Generation (RAG) shows promise for enterprise knowledge work, yet it often underperforms in high-stakes decision settings that require deep synthesis, strict traceability, and recovery from underspecified prompts. One-pass retrieval-and-write pipelines frequently yield shallow summaries, inconsistent grounding, and weak mechanisms for completeness verification. We introduce ADORE (Adaptive Deep Orchestration for Research in Enterprise), an agentic framework that replaces linear retrieval with iterative, user-steered investigation coordinated by a central orchestrator and a set of specialized agents. ADORE's key insight is that a structured Memory Bank (a curated evidence store with explicit claim-evidence linkage and section-level admissible evidence) enables traceable report generation and systematic checks for evidence completeness. Our contributions are threefold: (1) Memory-locked synthesis - report generation is constrained to a structured Memory Bank (Claim-Evidence Graph) with section-level admissible evidence, enabling traceable claims and grounded citations; (2) Evidence-coverage-guided execution - a retrieval-reflection loop audits section-level evidence coverage to trigger targeted follow-up retrieval and terminates via an evidence-driven stopping criterion; (3) Section-packed long-context grounding - section-level packing, pruning, and citation-preserving compression make long-form synthesis feasible under context limits. Across our evaluation suite, ADORE ranks first on DeepResearch Bench (52.65) and achieves the highest head-to-head preference win rate on DeepConsult (77.2%) against commercial systems.
研究の動機と目的
- 信頼性のある意思決定グレードの企業 RAG がワンショットの検索・作成パイプラインを超える必要性を動機づける。
- Memory Bank を用いて主張–証拠の追跡可能性を強制するエージェント的フレームワーク(ADORE)を提案する。
- 証拠カバレージ指向の実行を導入し、ギャップを局所化してターゲット検索を促進する。
- 長文の文脈制限内でセクションレベルの grounding と圧縮を有効にする。
- 公的・内部の企業ベンチマークで最先端の性能を示す。
提案手法
- 単純な研究タスクと深い研究タスクを適切な実行パスへルーティングする Hub-and-spoke オーケストレーター。
- 専門エージェント:Grounding、Planning、Execution、Report Generation、WebSearch エージェント。
- Memory Bank(主張–証拠グラフ)をセクションレベルの適法な証拠と追跡性の硬い制約として利用。
- 証拠カバレージ指向の実行と、セクションカバレージに基づく証拠駆動の停止基準。
- セクション圧縮長文 grounding:証拠を pack、 prune、圧縮して文脈予算に適合させつつ引用を保持。
- Memory 保存とカバレージ監査を伴う適応的検索と反省ループを用いてターゲットのフォローアップを trigger。
実験結果
リサーチクエスチョン
- RQ1企業 RAG システムはどのようにして長文レポーティングにおける信頼性ある追跡性と groundedness を実現できるか。
- RQ2Memory-locked 縮約アプローチは verifiable な証拠に基づく生成を拘束しつつ反復的な深い調査を可能にするか。
- RQ3証拠カバレージ指向の実行は線形の検索パイプラインと比べて完成度と引用の安定性を改善するか。
- RQ4セクションレベルのパックと圧縮は企業規模の制約内で長文 grounding を支援できるか。
- RQ5ASO(適応的オーケストレーター)と専門エージェントの公的・内部ベンチマークでの性能向上はどの程度か。
主な発見
| Model | Overall | Comp. | Insight | Inst. | Read. |
|---|---|---|---|---|---|
| ADORE (Ours) | 52.65 | 52.22 | 54.37 | 51.11 | 52.18 |
| Tavily Research | 52.44 | 52.84 | 53.59 | 51.92 | 49.21 |
| ThinkDepthAI | 52.43 | 52.02 | 53.88 | 52.04 | 50.12 |
| CellCog | 51.94 | 52.17 | 51.90 | 51.37 | 51.94 |
| Salesforce Air | 50.65 | 50.00 | 51.09 | 50.77 | 50.32 |
| LangChain (GPT-5) | 50.60 | 50.06 | 50.76 | 51.31 | 49.72 |
| Gemini 2.5 Pro | 49.71 | 49.51 | 49.45 | 50.12 | 50.00 |
| LangChain (Tavily) | 49.33 | 49.80 | 47.34 | 51.05 | 48.99 |
| OpenAI Deep Research | 46.45 | 46.46 | 43.73 | 49.39 | 47.22 |
| Claude Research | 45.00 | 45.34 | 42.79 | 47.58 | 44.66 |
- ADORE は DeepResearch Bench でトップの性能を達成し、総合品質とサブディメンションで他のベースラインを上回るスコア 52.65 を記録。
- DeepConsult の並列評価で、ADORE は主要競合に対して勝率 77.21% を達成。
- 内部企業ベンチマークで、ADORE は 64.11 を記録(人間の参照ベースラインを 14.11% 上回る)。
- ADORE の Memory Bank は主張–証拠の明示的リンクを通じて追跡可能な主張と grounded な引用を実現。
- 証拠カバレージ指向の実行は弱点セクションを局在化し、ターゲット検索を推進し、証拠駆動の停止ルールで終了する。
- セクション圧縮長文 grounding は、 citation preserving compression を保ちながら長文コンテキスト制約下で grounding の忠実度を維持。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。