[論文レビュー] EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair
EigenData は、関数呼び出しエージェントの環境構築、データ生成、監査を自動化する自己進化型マルチエージェントプラットフォームであり、BFCL-V3 を outcome-aware evaluation で修復・拡張した例で示される。
Function-calling agents -- large language models that invoke tools and APIs -- require high-quality, domain-specific training data spanning executable environments, backing databases, and diverse multi-turn trajectories. We introduce EigenData, an integrated, self-evolving platform that automates the full data lifecycle through a multi-agent architecture. A top-level orchestrator, EigenCore, coordinates three specialized sub-systems: DatabaseAgent for realistic domain database construction, CodingAgent for verified executable environment generation with iterative test-debug loops, and DataAgent for multi-turn trajectory synthesis with self-evolving prompt optimization. Cross-component feedback ensures consistency across all artifacts. We apply EigenData to audit and repair the Berkeley Function-Calling Leaderboard (BFCL-V3), identifying systematic errors in function schemas, implementations, and reference trajectories, automatically correcting them through coordinated schema refinement, code-level bug fixes, and trajectory modification, and introducing an outcome-aware evaluation protocol that assesses task success via database-state correctness rather than turn-level trajectory matching. We demonstrate that the repaired benchmark, coupled with outcome-aware metrics, produces model rankings substantially better correlated with human judgments of functional correctness.
研究の動機と目的
- 関数呼び出しエージェントのデータライフサイクル全体を自動化(データベース、実行環境、マルチターン軌道を含む)。
- 関数スキーマ、実装、参照軌道の不整合を監査・修復する。
- ターンレベルの一致ではなくデータベース状態の正しさを通じてタスクの成功を評価する outcome-aware 評価を導入する。
- 一貫性を確保し、スケーラブルでドメイン非依存なデータ生成を可能にするクロスコンポーネントのフィードバックを Demonstrate する。
- 実務家がトレーニングデータとベンチマークを生成・監査・修復できる使える CLI を提供する。
提案手法
- EigenCore は三つのサブシステムをオーケストレーションする:ドメインデータベースの DatabaseAgent、実行環境の CodingAgent、軌道合成の DataAgent。
- DatabaseAgent はスキーマを設計し、制約を検証し、ドメイン対応の戦略でデータを充填し、一貫性を検証する。
- CodingAgent は、スキーマと整合する機能コードとテストが合致することを保証するため、ジャッジによる故障帰属を用いた2段階の反復テスト・デバッグループを実装する。
- DataAgent は階層的で自己進化するワークフローを用いて、プロンプト最適化と審査員による自動評価により、多様なマルチターン軌道を生成する。
- 新しい outcome-aware 評価プロトコルは、データベース変更、関数呼び出し、情報処理がグラウンドトゥルースと一致するかを、ターンレベルの一致を超えて評価する。
- コマンドラインインターフェースは、生成、監査、修復のワークフローへスクリプト可能なアクセスを提供する。
実験結果
リサーチクエスチョン
- RQ1関数呼び出しデータのために、エンドツーエンドのドメイン環境(データベース、コード、軌道)をどのように統合・維持できるか。
- RQ2環境・コード・軌道のアーティファクト間で、クロスコンポーネントのフィードバックが一貫した監査・修復を可能にできるか。
- RQ3Outcome-aware 評価は機能的正確性をより正確に反映し、モデルのランキングを人間の判断と一致させるか。
- RQ4自動化された自己進化データプラットフォームによる、関数呼び出しエージェントのベンチマーキングにおける運用上の利点は何か。
主な発見
- EigenData は BFCL-V3 ベンチマークを監査・修復し、スキーマ・実装・軌道の誤りを特定・修正できる。
- Outcome-aware 評価プロトコルは、データベース状態の正しさと正しいツール呼び出しを通じてタスクの成功を際立たせる。
- Outcome-based 指標で修復されたベンチマークは、人間の判断と機能的正確性の関係がより高い相関を示すモデルランキングを得る。
- クロスコンポーネントのフィードバックにより、パイプライン全体の再起動なしにターゲット修復が可能となり、効率と一貫性が向上する。
- CLI モデルは、データ生成、監査、修復タスクへプラットフォームを利用可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。