[論文レビュー] Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering
ML-Master 2.0は階層的認知キャッシュを導入して超長期的な自律MLエンジニアリングを実現し、MLE-Benchでメダル獲得率56.44%を達成し、タスク難易度全体で優れた性能を示す。
The advancement of artificial intelligence toward agentic science is currently bottlenecked by the challenge of ultra-long-horizon autonomy, the ability to sustain strategic coherence and iterative correction over experimental cycles spanning days or weeks. While Large Language Models (LLMs) have demonstrated prowess in short-horizon reasoning, they are easily overwhelmed by execution details in the high-dimensional, delayed-feedback environments of real-world research, failing to consolidate sparse feedback into coherent long-term guidance. Here, we present ML-Master 2.0, an autonomous agent that masters ultra-long-horizon machine learning engineering (MLE) which is a representative microcosm of scientific discovery. By reframing context management as a process of cognitive accumulation, our approach introduces Hierarchical Cognitive Caching (HCC), a multi-tiered architecture inspired by computer systems that enables the structural differentiation of experience over time. By dynamically distilling transient execution traces into stable knowledge and cross-task wisdom, HCC allows agents to decouple immediate execution from long-term experimental strategy, effectively overcoming the scaling limits of static context windows. In evaluations on OpenAI's MLE-Bench under 24-hour budgets, ML-Master 2.0 achieves a state-of-the-art medal rate of 56.44%. Our findings demonstrate that ultra-long-horizon autonomy provides a scalable blueprint for AI capable of autonomous exploration beyond human-precedent complexities.
研究の動機と目的
- 超長期の自律性を、過去の経験を再利用可能な知識と知恵へと変換する認知蓄積として再定義する。
- 長期的文脈を管理するために、多層キャッシュと文脈移行を備えた階層的認知キャッシュ(HCC)を提案する。
- 短期実行と長期戦略を切り離すことがMLEタスクの安定性と性能を向上させることを示す。
- OpenAIのMLE-BenchでHCCを経験的に検証し、最先端のメダル獲得率とタスクの複雑性に対する堅牢性を示す。
提案手法
- ト transientな文脈を安定した認知と分離する三レベルの階層的認知キャッシュ(L1: 発展する経験、L2: 精錬された知識、L3: 先達の知恵)を導入する。
- 文脈事前取得による初期化、文脈ヒットによる retrieval、文脈昇格による統合を用いた文脈移行を実装する。
- MLEを超長期計画と見なし、段階ベースの階層的計画と並行探索方向を用いる。
- 軌跡を精錬された知識へ圧縮する段階レベルの昇格と、転用可能な知恵を蒸留するタスクレベルの昇格を適用する。
- 固定28時間の予算下でメダル獲得率(Bronze/Silver/Gold)を主要指標としてOpenAIのMLE-Benchを評価する。
- クロス-task転移のための温存された先識知恵キャッシュ(L3)とタスク非依存の記述子埋め込みを活用する。
実験結果
リサーチクエスチョン
- RQ1階層的認知キャッシュは数十時間の自律探索における戦略的一貫性を維持できるか?
- RQ2L1/L2/L3の各構成要素は性能と安定性に相乗効果をもたらすか?
- RQ3認知蓄積は低・中・高の複雑さタスクにおけるメダル獲得率にどのように影響するか?
- RQ4文脈移行(プレフェッチ、ヒット、昇格)が文脈長と学習効率に与える影響は?
- RQ5ML-Master 2.0はMLE-Benchにおいて既存の自律MLエージェントと比較して頑健性と移転性においてどうか?
主な発見
| Agent | Low (%) | Medium (%) | High (%) | Avg (%) | Valid (%) | Median+ (%) | Silver+ (%) | Gold (%) |
|---|---|---|---|---|---|---|---|---|
| ML-Master 2.0 (ours) – Deepseek-V3.2-Speciale | 75.8±1.5 | 50.9±3.5 | 42.2±2.2 | 56.4±2.5 | 95.6±1.2 | 63.1±1.2 | 45.3±2.0 | 19.6±0.9 |
| OpenHands | 12.1±1.5 | 2.0±0.9 | 4.9±0.4 | 52.0±3.3 | 7.1±1.7 | 4.0±1.0 | 2.7±1.1 | - |
| AIDE | 35.9±1.9 | 8.5±0.4 | 17.1±0.6 | 82.8±1.1 | 29.4±1.3 | 13.5±0.7 | 9.4±0.8 | - |
| R&D-Agent | 68.2±2.6 | 21.1±1.5 | 35.1±0.4 | 53.3±0.0 | 40.4±0.9 | 28.4±1.6 | 16.4±0.9 | - |
| ML-Master | 48.5±1.5 | 20.2±2.3 | 24.4±2.2 | 29.3±0.8 | 93.3±1.3 | 44.9±1.2 | 25.0±0.9 | 17.3±0.8 |
| MLE-STAR-PRO-1.5 | 68.2±2.6 | 34.2±1.5 | 33.3±0.0 | 44.0±1.3 | 93.8±0.4 | 52.9±1.6 | 30.2±2.9 | 19.1±1.8 |
- ML-Master 2.0はMLE-Benchで平均メダル獲得率56.44%を達成し、評価された手法の中で最高。
- 性能向上は低・中・高の複雑さタスクで一貫して見られ、メダル獲得率はそれぞれ75.8%、50.9%、42.2%。
- 文脈長は実質的に制御され、HCCなしだと未制御の成長が200kトークンを超えるのに対し、ピークは約70kトークンである。
- アブレーションでは任意のキャッシュレベルを削除すると性能が劣化し、L1(経験)は基盤、L2(知識)は合成に必須、L3(知恵)はタスク間移転に重要である。
- このアプローチは堅牢性を示し、 Tasksの一定割合で人間の性能を上回る(タスクの63.1%で50%以上の人間を上回る)。
- ML-Master 2.0はメダルの品質分布を改善し(有効/メダル率が高い)、タスク難易度が上がっても基準を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。