[論文レビュー] EvoFSM: Controllable Self-Evolution for Deep Research with Finite State Machines
EvoFSMは深層研究を有限状態機械(FSM)としてモデル化する構造化自己進化フレームワークを提示し、批評家と過去の軌跡の記憶に guidedしたワークフロー進化を可能にする。マルチホップQAベンチマークとインタラクティブタスクで強い改善を示す。
While LLM-based agents have shown promise for deep research, most existing approaches rely on fixed workflows that struggle to adapt to real-world, open-ended queries. Recent work therefore explores self-evolution by allowing agents to rewrite their own code or prompts to improve problem-solving ability, but unconstrained optimization often triggers instability, hallucinations, and instruction drift. We propose EvoFSM, a structured self-evolving framework that achieves both adaptability and control by evolving an explicit Finite State Machine (FSM) instead of relying on free-form rewriting. EvoFSM decouples the optimization space into macroscopic Flow (state-transition logic) and microscopic Skill (state-specific behaviors), enabling targeted improvements under clear behavioral boundaries. Guided by a critic mechanism, EvoFSM refines the FSM through a small set of constrained operations, and further incorporates a self-evolving memory that distills successful trajectories as reusable priors and failure patterns as constraints for future queries. Extensive evaluations on five multi-hop QA benchmarks demonstrate the effectiveness of EvoFSM. In particular, EvoFSM reaches 58.0% accuracy on the DeepSearch benchmark. Additional results on interactive decision-making tasks further validate its generalization.
研究の動機と目的
- 固定されたワークフローを超えた適応可能で安定した自己進化が深層研究エージェントに必要であることを動機づける。
- 深層研究を明示的なFSMとしてモデリングし、行動境界を明確に課す。
- 構造化された原子的進化(フローとスキル)を導入して topology と prompts を変更しつつコアモジュールの安定性を損なわない。
- 自己進化する記憶を組み込み、タスク間で成功戦略と失敗パターンを蒸留して共通のガイドラインと制約に反映させる。
提案手法
- 深層研究プロセスを明示的かつ動的なFSMとしてモデリング。状態は Flow、ノード固有の指示は Skill。
- 自己進化を正交な二つの演算子セットに分解:Topologyを変更する Flow Operators、ノード指示を洗練する Skill Operators。
- 進化を原子的操作(ADD_STATE、DELETE_STATE、MODIFY_TRANSITION、REVISE_INSTRUCTION)に制限し、Critic Mechanismによって導く。
- Experi ence Poolで過去の成功戦略を用いて新タスクを初期化し、過去の失敗パターンを避ける。
- 自己進化する記憶を取り入れ、成功軌跡をPRIORSとして蒸留、失敗を制約として将来の問に反映。
- 五つのマルチホップQAベンチマークと二つのインタラクティブ意思決定データセットで評価し、有効性と一般化を検証。
実験結果
リサーチクエスチョン
- RQ1 explicit FSMが深層研究エージェントの安定性を保ちつつタスク駆動適応を可能にするのはどういうときか?
- RQ2構造化された自己進化(フローとスキル)は長期的推論タスクで制約のない書き換えより優れているか?
- RQ3過去軌跡から蒸留された記憶は学習を加速しタスク間性能を向上させるか?
- RQ4原子的進化操作が多様なバックボーンに対してロバスト性と効率性に与える影響は何か?
主な発見
| モデル | HotpotQA | 2WIKI | MuSiQue | Bamboogle | DeepSearch |
|---|---|---|---|---|---|
| GPT-4o EvoFSM | 82.2 | 91.8 | 57.6 | 91.2 | 58.0 |
| Llama3-70B EvoFSM | 76.6 | 75.6 | 46.4 | 80.4 | 28.0 |
| DeepSeek-v3 EvoFSM | 80.4 | 88.8 | 54.2 | 89.6 | 51.0 |
| Qwen3-32B EvoFSM | 77.8 | 83.6 | 43.8 | 81.6 | 32.0 |
- EvoFSMは五つのマルチホップQAベンチマークで強力な性能を達成。例えば DeepSearch で特定のバックボーン時に 58.0% を達成。
- FSMを用いた構造化進化は、無構造進化や静的FSMを用いた Ablation で顕著に優れ、特に DeepSearch で効果を発揮。
- バックボーン(GPT-4o, Claude-4, Llama-3-70B, DeepSeek-v3, Qwen-3-32B)全体で EvoFSM は一貫して Agentic RAG および Search-o1 を上回り、データセット全体で堅牢な利得を維持。
- 記憶機構は成功戦略の移転と過去の失敗の回避を可能にし、タスク間の継続的改良に寄与。
- 移植性解析では EvoFSM がインタラクティブ領域(ALFWorld, WebShop)でベースラインを上回り、深層研究を超える一般化を示唆。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。