Skip to main content
QUICK REVIEW

[論文レビュー] ROMA: Recursive Open Meta-Agent Framework for Long-Horizon Multi-Agent Systems

Salaheddin Alzu'bi, Baran Nama|arXiv (Cornell University)|Feb 2, 2026
Multi-Agent Systems and Negotiation被引用数 0
ひとこと要約

ROMAは4つの役割(Atomizer、Planner、Executor、Aggregator)からなる再帰的でモジュール化されたメタエージェント枠組みとGEPA+プロンプト最適化を導入し、さまざまなタスクにおける長期的階層推論と生成を改善します。

ABSTRACT

Current agentic frameworks underperform on long-horizon tasks. As reasoning depth increases, sequential orchestration becomes brittle, context windows impose hard limits that degrade performance, and opaque execution traces make failures difficult to localize or debug. We introduce ROMA (Recursive Open Meta-Agents), a domain-agnostic framework that addresses these limitations through recursive task decomposition and structured aggregation. ROMA decomposes goals into dependency-aware subtask trees that can be executed in parallel, while aggregation compresses and validates intermediate results to control context growth. Our framework standardizes agent construction around four modular roles --Atomizer (which decides whether a task should be decomposed), Planner, Executor, and Aggregator -- which cleanly separate orchestration from model selection and enable transparent, hierarchical execution traces. This design supports heterogeneous multi-agent systems that mix models and tools according to cost, latency, and capability. To adapt ROMA to specific tasks without fine-tuning, we further introduce GEPA$+$, an improved Genetic-Pareto prompt proposer that searches over prompts within ROMA's component hierarchy while preserving interface contracts. We show that ROMA, combined with GEPA+, delivers leading system-level performance on reasoning and long-form generation benchmarks. On SEAL-0, which evaluates reasoning over conflicting web evidence, ROMA instantiated with GLM-4.6 improves accuracy by 9.9\% over Kimi-Researcher. On EQ-Bench, a long-form writing benchmark, ROMA enables DeepSeek-V3 to match the performance of leading closed-source models such as Claude Sonnet 4.5. Our results demonstrate that recursive, modular agent architectures can scale reasoning depth while remaining interpretable, flexible, and model-agnostic.

研究の動機と目的

  • 長期的エージェント系システムにおける脆弱性とコンテキストウィンドウ制限に対処する。
  • 標準化されたタスク分解と集約を備えたドメイン非依存の解釈可能なアーキテクチャを提供する。
  • 異種モデル/ツールの使用と並列実行を可能にしつつ、コンテキストの成長を抑制する。
  • 微調整なしでROMAプロンプトを自動適応させ、パフォーマンスを向上させるGEPA+を導入する。

提案手法

  • Atomizer、Planner、Executors、Aggregatorの4つのモジュール的役割を備えた再帰的制御ループを定義する。
  • 依存関係を尊重し並列実行を可能にするMECEサブタスクグラフに非原子的タスクを分解する。
  • 中間結果を集約・圧縮して高次の成果物を生成し、コンテキスト成長を制御する。
  • オーケストレーションとモデル選択を分離して異種モデルとツールをサポートする。
  • GEPA+を導入して複数提案者の生成・審査・検証・契約維持型マージを通じてコンポーネント間のプロンプトを共同最適化する。
  • ROMAを推論と長文生成のベンチマークで評価し、ベースラインと比較して改善を示す。
Figure 1: Overview of ROMA’s recursive architecture. An Atomizer determines whether a task is atomic. Atomic tasks are executed directly, while non-atomic tasks are decomposed into subtasks by a Planner . Each subtask is executed recursively by Executors , after which an Aggregator merges the output
Figure 1: Overview of ROMA’s recursive architecture. An Atomizer determines whether a task is atomic. Atomic tasks are executed directly, while non-atomic tasks are decomposed into subtasks by a Planner . Each subtask is executed recursively by Executors , after which an Aggregator merges the output

実験結果

リサーチクエスチョン

  • RQ1ROMAは再帰的タスク分解を用いた長期的階層推論タスクでどの程度性能を発揮するか。
  • RQ2ROMAアーキテクチャは推論深度を拡大しても解釈性と追跡性を維持できるか。
  • RQ3GEPA+プロンプト最適化はドメイン横断で微調整なしにROMAのタスク適応を改善するか。
  • RQ4SEAL-0、FRAMES、SimpleQA、EQ-BenchでROMAはオープンソース・クローズドソースのベースラインに対してどう優れているか。
  • RQ5長文生成中のROMAおよびGEPA+の計算コストと効率特性はどうか。

主な発見

  • ROMA with GLM-4.6 は SEAL-0 で 45.9% の精度を達成し、Kimi-Researcher より 9.9ポイント高い。
  • ROMA with GLM-4.6 は FRAMES で 82.3% を達成、オープンソース系の中で最高。
  • SimpleQA では ROMA with GLM-4.6 が 93.9% を達成、オープンソース系では最高、クローズドソース相当レベルに近い。
  • EQ-Bench Long-form における ROMA + GEPA+ のスコアは 79.8% に達し、トップモデルの Claude Sonnet 4.5 と同等。
  • GEPA+ は標準GEPA よりも常に 2–6 ポイントの絶対精度向上をもたらし、評価回数を減らしてタスク適応効率を改善。
  • ROMA は GEPA+ と組み合わせると DeepSeek-V3.1 を用いた場合 EQ-Bench で最前線のクローズドソースモデルに匹敵させる。
  • このアーキテクチャは、再帰的でモジュール化されたエージェントが推論深度を拡大しつつ、解釈性とモデル非依存性を保てることを示している。
Figure 2: ROMA’s hierarchical execution flow. Non-atomic tasks are decomposed top-down through planning, with left-to-right dependencies guiding execution, while results are combined bottom-up through aggregation. Executors operate on atomic subtasks, producing intermediate outputs that are aggregat
Figure 2: ROMA’s hierarchical execution flow. Non-atomic tasks are decomposed top-down through planning, with left-to-right dependencies guiding execution, while results are combined bottom-up through aggregation. Executors operate on atomic subtasks, producing intermediate outputs that are aggregat

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。