Skip to main content
QUICK REVIEW

[논문 리뷰] MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

Jun Shern Chan|arXiv (Cornell University)|2024. 10. 09.
Machine Learning and Data Classification인용 수 7
한 줄 요약

MLE-bench 는 오프라인 Kaggle 기반 벤치마크로, 75개의 대회에서 자율 ML 엔지니어링 작업에 대해 AI 에이전트를 평가하며, 인간 기준과 OpenAI 지원 구조가 한정적이지만 의미 있는 메달 비율을 보인다.

ABSTRACT

This paper develops a theory of search stability for long-running agents operating under finite active context, delayed verification, sparse expensive feedback, path-dependent lock-in, and lossy state compression. The focus is not only on model quality, but on the mesoscopic law layer that governs how an agent should preserve, retire, substitute, compress, branch, and reset competing hypotheses or route summaries over time. The framework models search state as an active hypothesis portfolio partitioned into coarse families under a context budget. Each item carries promise, verification lag, retention cost, staleness, overlap burden, and inertia. A central contribution is a set-valued adequacy semantics: within each discrimination window, the system is associated with a nonempty random set of operationally adequate families induced by the realized initial information state and downstream randomness. Success is defined as preserving recoverability of at least one adequate family at the first strongly discriminating verification stage, avoiding dependence on a selector-defined pseudo-truth. The paper derives threshold and impossibility results for context contamination, shadow retirement, delayed-verification coverage, reserve feasibility, and budget-limited adequacy. It also develops a theory of within-family semantic substitution, compressed-control alias hazard, reset admissibility, stale-legacy drift, diagnostic regret decomposition, and rolling-window lifting for long-running agents with repeated verification stages and changing task modes. The intended contribution is an audit-and-design law layer for bounded-memory AI systems. The theory is deliberately narrow and conditional, but it aims to make long-horizon agent failures more diagnosable: separating failures caused by bounded-memory hypothesis ecology from failures caused by raw model weakness, and from mixtures of both.

연구 동기 및 목표

  • 실제 세계와 유사한 작업에서 AI 에이전트의 자율 ML 엔지니어링 능력을 동기 부여하고 측정합니다.
  • 핵심 ML 엔지니어링 기술을 대표하는 다양하고 도전적인 Kaggle 대회를 큐레이션합니다.
  • 비공개 Kaggle 리더보드를 통해 인간 기준선을 설정하고 이를 대적하는 최전선 모델을 평가합니다.
  • 스캐폴딩, 모델 선택, 컴퓨트가 에이전트 성능에 어떤 영향을 미치는지 조사합니다.
  • 자율 ML 엔지니어링에 대한 지속적인 연구를 가능하게 하도록 벤치마크를 오픈 소스합니다.

제안 방법

  • 75개 큐레이션된 작업과 대응 데이터셋, 학습 스크립트 및 채점 로직을 갖춘 오프라인 Kaggle 대회 환경을 만든다.
  • 개인 리더보드 기반 메달(동/은/금)을 사용해 에이전트 성능을 측정하고 단일 메달율 헤드라인 지표를 계산한다.
  • 여러 에이전트 스캐폴드(AIDE, MLAB, OpenHands)와 다양한 모델(o1-preview, GPT-4o, Claude, Llama)을 평가해 최상의 조합을 식별한다.
  • pass@k(다수의 시도), 컴퓨트 자원, 확장된 시간 예산에 대한 제거실험을 수행해 성능 상한선을 매핑한다.
  • 솔루션에 대한 친숙도 분석 및 대회 설명의 난독화, 표절 점검 등을 통해 오염 위험을 평가한다.

실험 결과

연구 질문

  • RQ1자율 AI 에이전트가 ML 엔지니어링 작업에서 Kaggle과 같은 메달을 달성할 수 있는가?
  • RQ2스캐폴드와 기저 모델이 실제 세계 작업에서 엔드 투 엔드 ML 엔지니어링 성능에 어떻게 영향을 미치는가?
  • RQ3더 많은 시도나 더 많은 계산 자원, 더 긴 시간 예산이 메달 달성에 어떤 영향을 미치는가?
  • RQ4데이터/솔루션 memorization 또는 오염이 이 벤치마크에서 에이전트의 성능을 과대 평가하는가?
  • RQ5현대 Kaggle 대회에서 인간 수준의 성과와 MLE-bench의 차이는 무엇인가?

주요 결과

모델제출 생성 (%)유효 제출 (%)중간값 이상 (%)동 메달 (%)은 메달 (%)금 메달 (%)어떤 메달 (%)
AIDE o1-preview98.4 ± 0.482.8 ± 1.129.4 ± 1.33.4 ± 0.54.1 ± 0.69.4 ± 0.816.9 ± 1.1
GPT-4o (AIDE)70.7 ± 0.954.9 ± 1.014.4 ± 0.71.6 ± 0.22.2 ± 0.35.0 ± 0.48.7 ± 0.5
llama-3.1-405b-instruct46.3 ± 2.927.3 ± 2.66.7 ± 1.40.0 ± 0.01.3 ± 0.71.7 ± 0.73.0 ± 1.0
claude-3-5-sonnet-2024062068.9 ± 3.151.1 ± 3.312.9 ± 2.20.9 ± 0.62.2 ± 1.04.4 ± 1.47.6 ± 1.8
  • 가장 성능이 좋은 구성(오1-프리뷰와 AIDE)은 평균 16.9%의 대회에서 메달을 달성합니다.
  • AIDE를 포함한 GPT-4o는 8.7%의 메달에 도달하고, 대회당 100시간으로 늘리면 11.8%로 증가합니다.
  • 더 많은 시도(pass@k)에서 메달 달성률이 향상되며, 예를 들어 GPT-4o/AIDE 및 o1-preview/AIDE의 경우 pass@6은 pass@1 대비 대략 두 배의 메달을 제공합니다.
  • 하드웨어 변 variation(CPU 전용, 단일 또는 이중 A10 GPU)은 GPT-4o/AIDE의 성능이 설정에 관계없이 견고함을 보여줍니다.
  • 오염 및 표절 점검은 점수의 체계적 상승이나 메달 수상 제출물에서의 표절이 발견되지 않음을 시사합니다.
  • 더 긴 시간 예산은 메달을 낳지만 도구 효능과 채점 선택이 시간이 지남에 따라 관찰된 메달 순서에 영향을 줄 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.