Skip to main content
QUICK REVIEW

[논문 리뷰] Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search

Yifei Zhang, Xu Yang|arXiv (Cornell University)|2026. 03. 02.
Machine Learning and Data Classification인용 수 0
한 줄 요약

Gome를 제시하는 gradient 기반 MLE 에이전트로, 구조적 추론, 모멘텀 유사 기억, 다중 트레이 협업을 이용해 MLE-Bench에서 트리 탐색 벤치마크를 능가하며, 추론 능력이 증가할수록 성능이 향상됩니다.

ABSTRACT

LLM-based agents for machine learning engineering (MLE) predominantly rely on tree search, a form of gradient-free optimization that uses scalar validation scores to rank candidates. As LLM reasoning capabilities improve, exhaustive enumeration becomes increasingly inefficient compared to directed updates, analogous to how accurate gradients enable efficient descent over random search. We introduce extsc{Gome}, an MLE agent that operationalizes gradient-based optimization. extsc{Gome} maps structured diagnostic reasoning to gradient computation, success memory to momentum, and multi-trace execution to distributed optimization. Under a closed-world protocol that isolates architectural effects from external knowledge, extsc{Gome} achieves a state-of-the-art 35.1\% any-medal rate on MLE-Bench with a restricted 12-hour budget on a single V100 GPU. Scaling experiments across 10 models reveal a critical crossover: with weaker models, tree search retains advantages by compensating for unreliable reasoning through exhaustive exploration; as reasoning capability strengthens, gradient-based optimization progressively outperforms, with the gap widening at frontier-tier models. Given the rapid advancement of reasoning-oriented LLMs, this positions gradient-based optimization as an increasingly favorable paradigm. We release our codebase and GPT-5 traces at https://github.com/microsoft/RD-Agent.

연구 동기 및 목표

  • LLM의 추론이 향상될수록 MLE 에이전트에 대해 점수 기반의 트리 탐색에서 gradient 유사 최적화로의 전환을 촉진한다.
  • LLM 주도 추론을 구조화된 최적화 구성 요소(그라디언트 신호, 모멘텀, 분산 업데이트)로 매핑한다.
  • 아키텍처 효과를 분리하기 위해 닫힌 세계 프로토콜 하에서 MLE-Bench의 강력한 베이스라인과 비교하여 Gome를 평가한다.
  • 다수의 GPT/LLM 계층에 걸쳐 모델 능력에 따라 Gome의 확장성을 분석한다.
  • 재현 가능성을 위한 절삭실험(ablation)과 확장 가능한 설계를 제공한다 (코드 및 GPT-5 추적).

제안 방법

  • LLM이 생성한 개선 방향에 따라 파이프라인을 업데이트하는 체인 기반 최적화 프레임워크인 Gome를 제안한다.
  • 매 이터레이션마다 네 단계 루프를 사용: 피드백 실행, 계층적 검증, 성공 기억 업데이트, 다음 가설 생성을 위한 구조화된 추론.
  • 공유 성공 메모리(모멘텀)와 다중 트레이스(분산) 최적화 설정을 도입하여 개선을 조율한다.
  • 추론을 스칼라 점수 순위가 아닌 기울기 신호로 다루고, 후보 가설을 다차원으로 평가하며 상위-k에서 샘플링한다.
  • N개의 병렬 트레이스에 걸쳐 강제 다각화를 시행하고 교차 트레이 메모리와 LLM 기반 선택으로 가설을 안내한다.
  • GPT-5, o3, DeepSeek 변형을 포함한 프런티어 모델들에서 V100 GPU 12시간 예산으로 MLE-Bench의 클로즈드 월드 프로토콜 하에 평가한다.

실험 결과

연구 질문

  • RQ1Gradient-based optimization (as instantiated by Gome) surpass tree-search-based MLE agents as LLM reasoning capability grows?
  • RQ2How structured reasoning, momentum-like memory, and multi-trace collaboration contribute to performance and robustness in MLE tasks?
  • RQ3What is the scaling behavior of gradient-based MLE agents across model tiers from efficiency to frontier reasoning models?
  • RQ4What is the impact of a closed-world protocol on evaluating MLE agents and how does Gome perform under such constraints?

주요 결과

AgentMedalGoldImprovementIC
Gome (full)35.116.441.10.92
w/o Structured Reasoning25.813.322.60.83
w/o Success Memory28.916.936.20.87
w/o Multi-trace Optimization32.415.141.30.88
  • Gome achieves state-of-the-art any-medal rate (35.1%) on MLE-Bench under a 12-hour budget with GPT-5.
  • Gome attains 96.0% valid submission rate and 16.4% Gold medals on MLE-Bench (GPT-5).
  • Gradient-based optimization gains widen with stronger reasoning models, surpassing tree search by up to 7.1 percentage points on frontier models.
  • Ablations show structured reasoning, success memory, and multi-trace optimization each meaningfully improve medal rates; removing any component degrades performance.
  • Scaling analysis reveals a clear phase transition: gradient signals outperform tree search as reasoning capability increases ( Efficiency < Advanced < Frontier ).
  • 48-hour and half-budget ablations indicate stronger models gain more benefit from increased compute, suggesting potential for further gains with more time or reasoning quality.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.