[论文解读] MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
MLE-bench 是一个离线的基于 Kaggle 的基准,用于评估 AI 代理在跨 75 场比赛的自治 ML 工程任务中的表现,包含人工基线和 OpenAI 框架,显示出有限但有意义的奖牌比例。
This paper develops a theory of search stability for long-running agents operating under finite active context, delayed verification, sparse expensive feedback, path-dependent lock-in, and lossy state compression. The focus is not only on model quality, but on the mesoscopic law layer that governs how an agent should preserve, retire, substitute, compress, branch, and reset competing hypotheses or route summaries over time. The framework models search state as an active hypothesis portfolio partitioned into coarse families under a context budget. Each item carries promise, verification lag, retention cost, staleness, overlap burden, and inertia. A central contribution is a set-valued adequacy semantics: within each discrimination window, the system is associated with a nonempty random set of operationally adequate families induced by the realized initial information state and downstream randomness. Success is defined as preserving recoverability of at least one adequate family at the first strongly discriminating verification stage, avoiding dependence on a selector-defined pseudo-truth. The paper derives threshold and impossibility results for context contamination, shadow retirement, delayed-verification coverage, reserve feasibility, and budget-limited adequacy. It also develops a theory of within-family semantic substitution, compressed-control alias hazard, reset admissibility, stale-legacy drift, diagnostic regret decomposition, and rolling-window lifting for long-running agents with repeated verification stages and changing task modes. The intended contribution is an audit-and-design law layer for bounded-memory AI systems. The theory is deliberately narrow and conditional, but it aims to make long-horizon agent failures more diagnosable: separating failures caused by bounded-memory hypothesis ecology from failures caused by raw model weakness, and from mixtures of both.
研究动机与目标
- 激发并衡量 AI 代理在接近真实世界任务中的自治 ML 工程能力。
- 整理一组多样且具有挑战性的 Kaggle 比赛,代表核心的 ML 工程技能。
- 通过私有 Kaggle 排行榜建立人类基线,并与前沿模型进行对比评估。
- 研究脚手架、模型选择和计算资源如何影响代理性能。
- 开源该基准,以促进自治 ML 工程领域的持续研究。
提出的方法
- 创建一个离线的 Kaggle 竞赛环境,包含 75 个经过筛选的任务及相应的数据集、训练脚本和评分逻辑。
- 使用基于私有排行榜的奖牌(铜牌/银牌/金牌)来衡量代理性能,并计算一个单一的奖牌率头条指标。
- 评估多种代理脚手架(AIDE、MLAB、OpenHands)与多种模型(o1-preview、GPT-4o、Claude、Llama),以确定表现最佳的组合。
- 对 pass@k(多次尝试)、计算资源和扩展时间预算进行消融分析,以绘制性能上限。
- 通过分析对解题方案的熟悉程度、对比赛描述的混淆处理以及抄袭检测,评估污染风险。
实验结果
研究问题
- RQ1自治 AI 代理是否能够在 ML 工程任务中获得类似 Kaggle 的奖牌?
- RQ2脚手架和底层模型如何影响真实世界任务上的端到端 ML 工程性能?
- RQ3更多尝试、更多计算资源或更长时间预算对奖牌获得有哪些影响?
- RQ4数据/解题方案记忆或污染是否会夸大该基准上的代理性能?
- RQ5MLE-bench 与当代 Kaggle 竞赛中的人类水平表现相比如何?
主要发现
| 模型 | 提交次数(%) | 有效提交(%) | 高于中位数(%) | 铜牌(%) | 银牌(%) | 金牌(%) | 任意奖牌(%) |
|---|---|---|---|---|---|---|---|
| AIDE o1-preview | 98.4 ± 0.4 | 82.8 ± 1.1 | 29.4 ± 1.3 | 3.4 ± 0.5 | 4.1 ± 0.6 | 9.4 ± 0.8 | 16.9 ± 1.1 |
| GPT-4o (AIDE) | 70.7 ± 0.9 | 54.9 ± 1.0 | 14.4 ± 0.7 | 1.6 ± 0.2 | 2.2 ± 0.3 | 5.0 ± 0.4 | 8.7 ± 0.5 |
| llama-3.1-405b-instruct | 46.3 ± 2.9 | 27.3 ± 2.6 | 6.7 ± 1.4 | 0.0 ± 0.0 | 1.3 ± 0.7 | 1.7 ± 0.7 | 3.0 ± 1.0 |
| claude-3-5-sonnet-20240620 | 68.9 ± 3.1 | 51.1 ± 3.3 | 12.9 ± 2.2 | 0.9 ± 0.6 | 2.2 ± 1.0 | 4.4 ± 1.4 | 7.6 ± 1.8 |
- 表现最佳的设定(o1-preview 与 AIDE)在平均上在 16.9% 的比赛中获得奖牌。
- GPT-4o 与 AIDE 获得 8.7% 的奖牌,若每场比赛分配 100 小时,提升至 11.8%。
- 奖牌获得随更多尝试(pass@k)而提升,例如在 GPT-4o/AIDE 和 o1-preview/AIDE 下,pass@6 大致是 pass@1 的两倍。
- 硬件变体(仅 CPU、单 GPU 或双 A10 GPU)下,GPT-4o/AIDE 的性能在各设置中仍然稳健。
- 污染和抄袭检测显示分数没有系统性抬高,且在获奖提交中未检测到抄袭。
- 更高的时间预算会产生奖牌,但工具有效性和计分选择可能随时间影响观察到的奖牌序列。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。