[論文レビュー] AFlow: Automating Agentic Workflow Generation
AFLOW は Monte Carlo Tree Search をコード表現された LLM 呼び出しワークフロー上で自動的にエージェント性のあるワークフローを発見し、手動および自動化ベースラインを六つのベンチマークで上回り、より小さなモデルでも強力なコスト性能を実現します。平均で最先端ベースラインを 5.7% 向上させ、顕著なコスト効率の向上を達成します。
Large language models (LLMs) have demonstrated remarkable potential in solving complex tasks across diverse domains, typically by employing agentic workflows that follow detailed instructions and operational sequences. However, constructing these workflows requires significant human effort, limiting scalability and generalizability. Recent research has sought to automate the generation and optimization of these workflows, but existing methods still rely on initial manual setup and fall short of achieving fully automated and effective workflow generation. To address this challenge, we reformulate workflow optimization as a search problem over code-represented workflows, where LLM-invoking nodes are connected by edges. We introduce AFlow, an automated framework that efficiently explores this space using Monte Carlo Tree Search, iteratively refining workflows through code modification, tree-structured experience, and execution feedback. Empirical evaluations across six benchmark datasets demonstrate AFlow's efficacy, yielding a 5.7% average improvement over state-of-the-art baselines. Furthermore, AFlow enables smaller models to outperform GPT-4o on specific tasks at 4.55% of its inference cost in dollars. The code is available at https://github.com/FoundationAgents/AFlow.
研究の動機と目的
- エージェント性ワークフローの設計負荷を減らすためのスケーラブルな自動化を動機づける。
- コード表現された LLM 呼び出しグラフ上の探索としてワークフロー最適化を定式化する。
- 空間を効率的に探索する演算子を備えた MCTS ベースのフレームワーク AFLOW を開発する。
- 複数のベンチマークとコスト効率の含意における AFLOW の有効性を示す。
提案手法
- ワークフローをノード(LLM 呼び出し)として、コードベースのエッジで接続する。
- 柔らかな混合確率ノード選択と LLM 主導の展開を用いたモンテカルロ木探索を行う。
- 再利用可能なワークフローパターンを構築するための演算子(例:Generate、Review & Revise、Ensemble)を導入する。
- 探索をエッジとプロンプトに集中させるため、主要パラメータ(モデル、温度、フォーマット)を固定する。
- 実行フィードバックを通じて生成ワークフローを評価し、経験を逆伝搬して探索を導く。
- AFLOW がベースラインより平均で 5.7% 改善し、より小さなモデルが低コストで大きなモデルを上回ることを示す。
実験結果
リサーチクエスチョン
- RQ1AFLOW は多様なドメインで manual intervention なしに高性能なエージェント性ワークフローを自動的に発見できるか。
- RQ2性能と効率の観点から、AFLOW の MCTS ベース探索は既存の自動ワークフロー最適化手法とどう比較されるか。
- RQ3異なる実行 LLM を用いた場合、どんなコスト-性能のトレードオフが生じるか。
- RQ4発見されたワークフローは異なる言語モデル間でどの程度転用可能か。
- RQ5演算子が探索効率と最終的なワークフローの品質に与える影響は何か。
主な発見
| 方法 | HotpotQA | DROP | HumanEval | MBPP | GSM8K | MATH | Avg |
|---|---|---|---|---|---|---|---|
| IO (GPT-4o-mini) | 68.1 | 68.3 | 87.0 | 71.8 | 92.7 | 48.6 | 72.8 |
| CoT (Wei et al., 2022) | 67.9 | 78.5 | 88.6 | 71.8 | 92.4 | 48.8 | 74.7 |
| CoT SC (5-shot) (Wang et al., 2022) | 68.9 | 78.8 | 91.6 | 73.6 | 92.7 | 50.4 | 76.0 |
| MedPrompt (Nori et al., 2023) | 68.3 | 78.0 | 91.6 | 73.6 | 90.0 | 50.0 | 75.3 |
| MultiPersona (Wang et al., 2024a) | 69.2 | 74.4 | 89.3 | 73.6 | 92.8 | 50.8 | 75.1 |
| Self Refine (Madaan et al., 2023) | 60.8 | 70.2 | 87.8 | 69.8 | 89.6 | 46.1 | 70.7 |
| ADAS (Hu et al., 2024) | 64.5 | 76.6 | 82.4 | 53.4 | 90.8 | 35.4 | 67.2 |
| Ours | 73.5 | 80.6 | 94.7 | 83.4 | 93.5 | 56.2 | 80.3 |
- AFLOW は六つのベンチマーク全体で最先端ベースラインを平均 5.7% 改善する。
- AFLOW は既存の自動化手法を 19.5% 上回る。
- 平均して、AFLOW ワークフローは QA、コード、数学領域で 80.3% の性能を達成する。
- AFLOW によって発見されたワークフローは、より小さな LLM が大きなモデルをはるかに低コストで上回ることを可能にする(パレート前線の結果)。
- AFLOW は発見されたワークフローの異なる実行エンジン間でモデルに依存しない転用性を示す。
- アブレーションにより、演算子が探索効率を改善することが示される一方、事前定義された演算子がなくても AFLOW は良好に機能する場合がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。