QUICK REVIEW

[論文レビュー] Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search

Yifei Zhang, Xu Yang|arXiv (Cornell University)|Mar 2, 2026

Machine Learning and Data Classification被引用数 0

ひとこと要約

Gome を提示する。勾配ベースの MLE エージェントで、構造化推論、モメンタム様メモリ、複数のトレース協調を用い、MLE-Bench の木探索ベースのベースラインを上回る。推論能力が高まるほど性能が改善する。

ABSTRACT

LLM-based agents for machine learning engineering (MLE) predominantly rely on tree search, a form of gradient-free optimization that uses scalar validation scores to rank candidates. As LLM reasoning capabilities improve, exhaustive enumeration becomes increasingly inefficient compared to directed updates, analogous to how accurate gradients enable efficient descent over random search. We introduce extsc{Gome}, an MLE agent that operationalizes gradient-based optimization. extsc{Gome} maps structured diagnostic reasoning to gradient computation, success memory to momentum, and multi-trace execution to distributed optimization. Under a closed-world protocol that isolates architectural effects from external knowledge, extsc{Gome} achieves a state-of-the-art 35.1\% any-medal rate on MLE-Bench with a restricted 12-hour budget on a single V100 GPU. Scaling experiments across 10 models reveal a critical crossover: with weaker models, tree search retains advantages by compensating for unreliable reasoning through exhaustive exploration; as reasoning capability strengthens, gradient-based optimization progressively outperforms, with the gap widening at frontier-tier models. Given the rapid advancement of reasoning-oriented LLMs, this positions gradient-based optimization as an increasingly favorable paradigm. We release our codebase and GPT-5 traces at https://github.com/microsoft/RD-Agent.

研究の動機と目的

スコアベースの木探索から、LLM の推論が改善するにつれて勾配様の最適化へと MLE エージェントの移行を動機付ける。
LLM 主導の推論を、構造化された最適化要素（勾配信号、モメンタム、分散更新）へマッピングする。
クローズドワールド・プロトコルの下で Gome を強力なベースラインと対比させ、アーキテクチャ効果を分離して評価する。
複数の GPT/LLM レイヤーに渡るモデル能力の拡張に伴う Gome のスケーリングを分析する。
再現性を可能にするスケーラブルな設計と Ablation の提供（コードと GPT-5 トレース）。

提案手法

各ステップが LL M 生成の改善方向に沿ってパイプラインを更新するチェーンベースの最適化フレームワークとして Gome を提案する。
反復ごとに四段階ループを使用：フィードバックの実行、階層的検証、成功メモリの更新、次の仮説を生成する構造化推論。
共有の成功メモリ（モメンタム）とマルチトレース（分散）最適化設定を導入し、改善を協調させる。
推論をスカラーのスコアランキングではなく勾配信号として扱い、候補仮説を複数次元でスコア付けし、Top-k からサンプリングする。
N 本の並列トレース間で強制的な多様化を行い、トレース間メモリと LLM ベースの選択を用いて仮説を誘導する。
GPT-5、o3、DeepSeek などのフロンティアモデルを対象に、MLE-Bench のクローズドワールドプロトコル下で 12 時間の予算で評価する。

実験結果

リサーチクエスチョン

RQ1Gome によって実装された勾配ベースの最適化は、LLM の推論能力が向上するにつれて木探索ベースの MLE エージェントを上回るか。
RQ2構造化推論、モメンタム様メモリ、マルチトレース協調は MLE タスクの性能とロバスト性にどう寄与するか。
RQ3効率から最先端の推論モデルまで、モデル種別の階層を横断して勾配ベースの MLE エージェントはどのようにスケールするか。
RQ4クローズドワールド・プロトコルが MLE エージェントの評価に及ぼす影響と、Gome はこの制約下でどう機能するか。

主な発見

Agent	Medal	Gold	Improvement	IC
Gome (full)	35.1	16.4	41.1	0.92
w/o Structured Reasoning	25.8	13.3	22.6	0.83
w/o Success Memory	28.9	16.9	36.2	0.87
w/o Multi-trace Optimization	32.4	15.1	41.3	0.88

Gome は GPT-5 を用いた 12時間予算下の MLE-Bench で最先端の any-medal 率（35.1%）を達成。
Gome は MLE-Bench（GPT-5）で 96.0% の有効提出率と 16.4% の Gold メダルを達成。
勾配ベースの最適化は推論モデルが強力になるほど利得が広がり、フロンティアモデルでは木探索を最大で 7.1 ポイント上回った。
アブレーションは、構造化推論、成功メモリ、マルチトレース最適化がそれぞれメダル獲得率を実質的に改善することを示し、いずれの要素を削除しても性能が低下。
スケーリング分析は明確な相転移を示す：推論能力が向上するほど勾配信号は木探索を上回る（Efficiency < Advanced < Frontier）。
48時間および半予算のアブレーションは、強力なモデルほど計算の増加からより大きな利益を得ることを示し、より長時間または推論品質を高めることでさらなる利得の可能性を示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。