Skip to main content
QUICK REVIEW

[論文レビュー] AdaptOrch: Task-Adaptive Multi-Agent Orchestration in the Era of LLM Performance Convergence

Geunbin Yu|arXiv (Cornell University)|Feb 18, 2026
Topic Modeling被引用数 0
ひとこと要約

AdaptOrch は、タスク依存グラフに基づき、並行・逐次・階層・ハイブリッドなどのトップロジーを選択するトポロジー認識型オーケストレーションを正式化・実装し、同一モデルで静的ベースラインより12–23%の向上を達成する。

ABSTRACT

As large language models from diverse providers converge toward comparable benchmark performance, the traditional paradigm of selecting a single best model per task yields diminishing returns. We argue that orchestration topology -- the structural composition of how multiple agents are coordinated, parallelized, and synthesized -- now dominates system-level performance over individual model capability. We present AdaptOrch, a formal framework for task-adaptive multi-agent orchestration that dynamically selects among four canonical topologies (parallel, sequential, hierarchical, and hybrid) based on task dependency graphs and empirically derived domain characteristics. Our framework introduces three key contributions: (1) a Performance Convergence Scaling Law, formalizing conditions under which orchestration selection outweighs model selection; (2) a Topology Routing Algorithm that maps task decomposition DAGs to optimal orchestration patterns in O(|V| + |E|) time; and (3) an Adaptive Synthesis Protocol with provable termination guarantees and heuristic consistency scoring for parallel agent outputs. We validate AdaptOrch across coding (SWE-bench), reasoning (GPQA), and retrieval-augmented generation tasks, demonstrating that topology-aware orchestration achieves 12-23% improvement over static single-topology baselines, even when using identical underlying models. Our results establish orchestration design as a first-class optimization target independent of model scaling.

研究の動機と目的

  • LLM 能力が収束する際、モデル選択からオーケストレーション設計への移行を動機づける。
  • 4つの標準的トップロジー間のタスク適応型トポロジールーティングの正式なフレームワークを提案する。
  • タスク DAG 上で動作する線形時間のトポロジールーティングアルゴリズムを開発する。
  • マルチエージェント出力のための終了保証を伴う適応的統合プロトコルを提示する。
  • コード作成、推論、検索タスクを横断するトポロジー認識型オーケストレーションを実証的に検証する。

提案手法

  • LLM間の能力収束をモデルのエプシロン収束として定義する。
  • サブタスク・コスト・結合強度を含むタスク依存DAGを正式化する。
  • 4つの標準トップロジー(並行、逐次、階層、ハイブリッド)を導入し、|V|+|E|の計算量を持つトポロロジールーティングアルゴリズムを提示する。
  • 各トポロジーに対する実行戦略を説明する(並行、逐次、階層リードエージェント、レイヤードハイブリッド)。
  • 並行出力を結合する整合ヒューリスティックを備え、終了を保証する適応的統合プロトコルを提示する。
  • SWE-bench、GPQA、HotpotQA に対する実証評価を通じて AdaptOrch を静的ベースラインと比較する。
Figure 3 : $\epsilon$ -Convergence evidence across four benchmarks. All five models score within $\epsilon$ of the best, validating the convergence assumption (Definition 1 ). Dashed line: best model score; shaded band: $\epsilon$ range.
Figure 3 : $\epsilon$ -Convergence evidence across four benchmarks. All five models score within $\epsilon$ of the best, validating the convergence assumption (Definition 1 ). Dashed line: best model score; shaded band: $\epsilon$ range.

実験結果

リサーチクエスチョン

  • RQ1LLM 能力が収束する際、オーケストレーションのトポロジーは最終タスクの性能にどのように影響するのか。
  • RQ2タスク依存構造は、 parallel、sequential、hierarchical、hybrid の4つのトップロジー間の選択を信頼性高く導けるか。
  • RQ3適応的統合プロセスの収束特性と終了保証は何か。
  • RQ4コード作成、推論、検索タスク across トポロジー認識型オーケストレーションで得られる性能向上(精度とスループット)はどれほどか。

主な発見

MethodSWE-bench Verified AccSWE-bench Verified LatSWE-bench Verified Tok(K)GPQA Diamond AccGPQA Diamond LatGPQA Diamond Tok(K)HotpotQA F1HotpotQA LatHotpotQA Tok(K)
Single Best42.81.0 ×12.346.21.0 ×4.168.31.0 ×6.8
MoA-3L48.13.2 ×84.649.82.8 ×31.271.62.5 ×47.3
Static-Parallel47.31.4 ×52.144.11.3 ×18.772.81.2 ×28.4
Static-Sequential45.62.8 ×48.950.32.4 ×16.469.12.1 ×26.1
LLM-Blender44.91.8 ×61.747.71.6 ×22.370.41.5 ×34.8
AdaptOrch (ours)52.61.6 ×41.853.11.5 ×15.976.41.3 ×22.7
_Δ vs Single Best_+9.8+6.9+8.1
_Δ vs Best Static_+4.5+2.8+3.6
  • トポロジー認識型オーケストレーションは、同一モデルを用いた3つのベンチマークで静的トポロジーベースラインを12–23%の精度向上で上回る。
  • ハイブリッドトポロジーが頻繁に選択され、ベンチマーク間で平均49.7% のルーティングを占め、結合度が高い領域ではより逐次/階層的なルーティングとなる。
  • AdaptOrch は SWE-bench Verified、GPQA Diamond、HotpotQA の最大精度を Single Best や他のベースラインと比較して達成する。
  • ルーティングアルゴリズムは線形時間で動作し、統合プロトコルは数回の繰り返しで終了する(経験的にはタスクの94%で2回の繰り返し)。
  • 適応的ルーティングは一部のベースラインに比べトークン使用量を抑制し、精度を向上させつつトークン効率指標にも有利。
Figure 4 : Main results comparison across three benchmarks. AdaptOrch achieves the highest accuracy on all tasks while maintaining competitive latency. Error bars show $\pm 1$ standard deviation over 3 runs.
Figure 4 : Main results comparison across three benchmarks. AdaptOrch achieves the highest accuracy on all tasks while maintaining competitive latency. Error bars show $\pm 1$ standard deviation over 3 runs.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。