[論文レビュー] DOVA: Deliberation-First Multi-Agent Orchestration for Autonomous Research Automation
DOVAは、自治研究タスクのための熟慮優先のハイブリッド型多エージェントオーケストレーションを導入し、三つの協調パターンと適応的思考を組み合わせて、ソースカバレッジ、信頼性、トークン効率を改善し、不要なツール呼び出しを減らします。
Large language model (LLM) agents have demonstrated remarkable capabilities in tool use, reasoning, and code generation, yet single-agent systems exhibit fundamental limitations when confronted with complex research tasks demanding multi-source synthesis, adversarial verification, and personalized delivery. We present DOVA (Deep Orchestrated Versatile Agent), a multi-agent platform introducing three key innovations: (1) deliberation-first orchestration, where explicit meta-reasoning precedes tool invocation, informed by a persistent user model and entity-aware conversation context; (2) hybrid collaborative reasoning, a composable three-phase pipeline unifying ensemble diversity, blackboard transparency, and iterative refinement; and (3) adaptive multi-tiered thinking, a six-level token-budget allocation scheme that reduces inference cost by 40-60% on simple tasks while preserving deep reasoning capacity. We formalize the core algorithms, present an architectural ablation study across seven system configurations, and analyze the contribution of each component to answer confidence, source coverage, and token efficiency.
研究の動機と目的
- 複数ソースの統合と検証を必要とする複雑な研究タスクにおける単一エージェントLLMシステムの制約を動機づけ、対処する。
- ツール呼び出しを決定する熟慮優先オーケストレーションを採用する多エージェントプラットフォームを提案する。
- 幅広さ・透明性・深さのバランスを取るハイブリッド協調推論パイプラインを開発する。
- トークンを節約しつつ推論品質を維持する適応的多層思考を導入する。
- アブレーション研究を通じてアーキテクチャをデモンストレーションし、信頼性、ソースカバレッジ、効率への影響を測定する。
提案手法
- 継続的なユーザーモデルとエンティティ認識コンテキストを用いて、行動前にツール呼び出しを決定する熟慮優先オーケストレーション。
- アンサンブル、ブラックボード、反復的改良フェーズを組み合わせたハイブリッド協調推論。
- タスクタイプと複雑さをトークン予算に対応付ける6段階の適応思考予算。
- 階層化されたメモリ構造を横断するMMRによる多様性意識のメモリ検索。
- REST、CLI、ブラウザUI、MCPサーバを統合した多モーダルインターフェース(Claude Code統合はダイナミックプラグイン経由)。
- 構造化統合を用いた反復的対立的評価(Bull-vs-Bear)による多周回の評価的クエリと統合的合成。

実験結果
リサーチクエスチョン
- RQ1熟慮優先オーケストレーションは、反射的ツール使用と比較してツール使用と応答品質にどのような影響を与えるか?
- RQ2ハイブリッド協調推論は、異なる複雑さのタスクにおいて信頼性、ソースカバレッジ、トークン効率にどのような影響を与えるか?
- RQ3適応的多層思考は、単純・複雑な研究タスクで回答品質を損なうことなくトークン使用を削減できるか?
- RQ4Memory diversityと対立的ディベートは、統合出力の信頼性と検証性にどのような影響を与えるか?
主な発見
- ハイブリッド協調推論は最大の性能向上をもたらす。アブレーション研究では協調を除くと信頼性が0.14、カバレッジが0.25低下。
- 適応思考は単純タスク(分類・要約など)で顕著なトークン削減をもたらし、信頼性への影響は最小。
- 熟慮は不要なツール呼び出しを減らし待機時間を短縮し、コスト効率を改善。
- ReActベースの単一パス推論は、完全なDOVAパイプラインと比較して信頼性が著しく低い。
- 自己評価とメモリ文脈は改良率と評価精度を向上させ、低品質出力を緩和する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。