[論文レビュー] MARS: Modular Agent with Reflective Search for Automated AI Research
MARSはBudget-Aware MCTS、Modular Decomposition、Comparative Reflective Memoryを導入し、AI研究を自動化。MLE-Benchで最先端のオープンソース性能と、ブランチ間の強力な一般化を達成。
Automating AI research differs from general software engineering due to computationally expensive evaluation (e.g., model training) and opaque performance attribution. Current LLM-based agents struggle here, often generating monolithic scripts that ignore execution costs and causal factors. We introduce MARS (Modular Agent with Reflective Search), a framework optimized for autonomous AI research. MARS relies on three pillars: (1) Budget-Aware Planning via cost-constrained Monte Carlo Tree Search (MCTS) to explicitly balance performance with execution expense; (2) Modular Construction, employing a "Design-Decompose-Implement" pipeline to manage complex research repositories; and (3) Comparative Reflective Memory, which addresses credit assignment by analyzing solution differences to distill high-signal insights. MARS achieves state-of-the-art performance among open-source frameworks on MLE-Bench under comparable settings, maintaining competitiveness with the global leaderboard's top methods. Furthermore, the system exhibits qualitative "Aha!" moments, where 63% of all utilized lessons originate from cross-branch transfer, demonstrating that the agent effectively generalizes insights across search paths.
研究の動機と目的
- 自動化されたAI研究の固有の課題(高コストな評価や不透明なクレジットアトリビューションを含む)を動機付け、対処する。
- 予算認識計画を通じて性能と計算コストのバランスを取る枠組み(MARS)を提案する。
- アーキテクチャの複雑さを管理しテスト性を高めるため、モジュラーなリポジトリレベルの構築を推進する。
- 因果洞察を蒸留し長期的探索をガイドするComparative Reflective Memoryを導入する。
提案手法
- 実行コストと性能のバランスを、効率性を指向した報酬(式4)を用いて調整するBudget-Aware Monte Carlo Tree Search(MCTS)を実装する。
- モノリシックなスクリプトを独立した検証可能なモジュールに置換し、Diffベースの編集を可能にするモジュラ設計-分解-実装パイプラインを採用する。
- Current solutionと最良-knownな解を比較することで高信号の教訓を抽出するComparative Reflective Memoryを導入し、組織的デバッグと解の教訓を含める。
- 長期的AI研究をリポジトリレベルの問題へ変換する三部構成フレームワーク(タスク準備、リソース認識計画、モジュール分解、反射的メモリ)を用いる。
- MLE-Benchを24時間のウォールクロック予算下で評価し、Above Median、Bronze、Silver、Gold、Any Medalの指標を報告し、各要素のアブレーションを検証する。

実験結果
リサーチクエスチョン
- RQ1予算認識計画は長期的なAI研究タスクの効率をどう改善するか?
- RQ2モジュラー分解は複雑な研究パイプラインの解決策の質と保守性を改善するか?
- RQ3Comparative Reflective Memoryは効果的なクレジットアトリビューションと迅速な長期学習を可能にするか?
- RQ4教訓学習はブランチ間転移と探索ダイナミクスにどのような影響を与えるか?
- RQ5現実的な制約下でMLE-BenchにおけるMARSはオープンソースのベースラインとどう比較されるか?
主な発見
- MARSは同等設定下でMLE-Benchのオープンソースフレームワークの中で最先端の性能を達成した。
- Computeを増やしたMARS+は、Above Median、Gold Medal、Any Medalの割合で最高を記録し、主要なベースラインを上回った。
- アブレーション研究により、モジュラー分解と教訓学習の両方が性能を大幅に向上させることが示された。
- Budget-Aware MCTSは実効解決率を高め、性能が同等ならより速い候補を優先し発見を加速する。
- 教訓は高い活用率とブランチ間転移を示し、探索経路全体で洞察の一般化が効果的であることを示唆する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。