Skip to main content
QUICK REVIEW

[論文レビュー] TDAG: A Multi-Agent Framework based on Dynamic Task Decomposition and Agent Generation

Yaoxiang Wang, Zhiyong Wu|arXiv (Cornell University)|Feb 15, 2024
Multi-Agent Systems and Negotiation被引用数 5
ひとこと要約

TDAGは動的タスク分解とサブエージェント生成を導入し、LLMベースのエージェントを改善する。ItineraryBench旅行計画ベンチマークと細粒度指標で評価。

ABSTRACT

The emergence of Large Language Models (LLMs) like ChatGPT has inspired the development of LLM-based agents capable of addressing complex, real-world tasks. However, these agents often struggle during task execution due to methodological constraints, such as error propagation and limited adaptability. To address this issue, we propose a multi-agent framework based on dynamic Task Decomposition and Agent Generation (TDAG). This framework dynamically decomposes complex tasks into smaller subtasks and assigns each to a specifically generated subagent, thereby enhancing adaptability in diverse and unpredictable real-world tasks. Simultaneously, existing benchmarks often lack the granularity needed to evaluate incremental progress in complex, multi-step tasks. In response, we introduce ItineraryBench in the context of travel planning, featuring interconnected, progressively complex tasks with a fine-grained evaluation system. ItineraryBench is designed to assess agents' abilities in memory, planning, and tool usage across tasks of varying complexity. Our experimental results reveal that TDAG significantly outperforms established baselines, showcasing its superior adaptability and context awareness in complex task scenarios.

研究の動機と目的

  • 現実世界の多段階タスクにおいて、より適応性の高いLLMベースのエージェントの必要性を動機づける。
  • タスクを動的に分解し、サブタスクに合わせてサブエージェントを生成するマルチエージェントフレームワークを提案する。
  • 複雑なタスクの段階的進捗を細粒度に評価するための ItineraryBench を紹介する。
  • TDAG がベースラインより優れていることを示し、動的分解とエージェント生成の影響を分析する。

提案手法

  • MainAgent で複雑なタスクをサブタスクに分解し、それぞれを動的に生成された SubAgent に割り当てる。
  • 前のサブタスクの結果に基づいてサブタスクを動的に更新し、障害や新情報に対応する。
  • ツール文書の精査を含む、LLM プロンプトを用いてサブエージェントを生成し、インクリメンタルなスキルライブラリを構築する。
  • 小型の SentenceBERT モデルによる検索を用いてタスクとスキルをマッチングする、進化するスキルライブラリを維持する。
  • TDAG をベースライン(ReAct、P&S、P&E、ADAPT)と比較し、アブレーション(エージェント生成の除去または動的分解の除去)を実施する。

実験結果

リサーチクエスチョン

  • RQ1動的タスク分解は多段階タスクにおける適応性と文脈認識を向上させることができるか?
  • RQ2自動的なサブエージェント生成は手動労力を削減し、多様なタスクでパフォーマンスを向上させるか?
  • RQ3細粒度評価(部分的な進捗)は、複雑な計画タスクにおける従来の成功指標とどのように相関するか?

主な発見

方法タイプ1タイプ2タイプ3平均
ReAct43.8442.6942.5443.02
P&S41.2846.4843.2743.68
P&E39.0947.4442.0342.85
ADAPT42.7348.5842.9244.74
TDAG (Ours)49.7850.9646.5149.08
w/o Agent Generation47.247.145.7846.69
w/o Dynamic Decomposition44.750.0443.9446.23
  • TDAG は ItineraryBench のタスクタイプ全般で確立されたベースラインを上回る。
  • アブレーションは、動的分解とエージェント生成の両方が最高性能の達成に不可欠であることを示している。
  • 固定計画法(例:P&E)は計画適応性の欠如のため ReAct を下回る。
  • TDAG は、常識・外部情報・制約エラーの発生率がベースラインより低い状態を維持する。
  • 追加のベンチマーク(WebShop、TextCraft)でも、報酬スコアと成功率で TDAG がベースラインを上回る。
  • 細粒度評価は、完全なタスク成功が得られなくても進捗を示すことが分かる。二値評価とは異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。