[論文レビュー] AIDE: AI-Driven Exploration in the Space of Code
AIDE は、コード空間最適化として機械学習エンジニアリングを扱うコード解決策の木探索を用いる LLM 搭載エージェントであり、Kaggle および関連ベンチマークで強力な結果を達成します。タブラー Kaggle タスクでは、いくつかのベースラインを上回り、多くのケースで人間の中央値のパフォーマンスに近づきます。
Machine learning, the foundation of modern artificial intelligence, has driven innovations that have fundamentally transformed the world. Yet, behind advancements lies a complex and often tedious process requiring labor and compute intensive iteration and experimentation. Engineers and scientists developing machine learning models spend much of their time on trial-and-error tasks instead of conceptualizing innovative solutions or research hypotheses. To address this challenge, we introduce AI-Driven Exploration (AIDE), a machine learning engineering agent powered by large language models (LLMs). AIDE frames machine learning engineering as a code optimization problem, and formulates trial-and-error as a tree search in the space of potential solutions. By strategically reusing and refining promising solutions, AIDE effectively trades computational resources for enhanced performance, achieving state-of-the-art results on multiple machine learning engineering benchmarks, including our Kaggle evaluations, OpenAI MLE-Bench and METRs RE-Bench.
研究の動機と目的
- 労力のかかる試行錯誤を減らすために機械学習エンジニアリングの自動化を動機づける。
- ML エンジニアリングをコード空間最適化として捉え、LLM を活用してターゲットとなる改善を促す。
- 有望な解を再利用・洗練する木ベースの探索戦略を開発する。
- ML タスクの具体的な実装例を提供し、Kaggle ベースのベンチマークと比較して評価する。
提案手法
- 検索を、状態を持たない目的関数 h(s) を持つコードスクリプト空間の最適化としてモデル化する。
- エッジが改善を、ノードがスクリプトを表す解決策ツリー T を保持する。
- どのノードを次に精錬するかを決定するハードコーディングされた探索方針 π を用いる。
- コードをドラフト、デバッグ、改善できる3-way コーディング演算子 f を適用する。
- 過去のコンテキストを要約してプロンプトを簡潔に保つ Σ という要約演算子を活用する。
- ML ではデータプレビューとデータセット特性に合わせたプロンプトを組み込む。
実験結果
リサーチクエスチョン
- RQ1AIDE は実用的な計算予算の範囲内で、コード空間を探索して ML モデル性能を改善することが信頼できるか。
- RQ2木構造の漸進的改善アプローチは、ML エンジニアリングタスクのモノリシックな並列プロンプティング戦略より優れているか。
- RQ3現実世界の Kaggle スタイルタスクにおける AIDE の性能は AutoML ベースラインや人間の専門家と比べてどうか。
- RQ4LLM 主導のコード空間探索は、タブラー ML を超えた他の AI R&D タスクへどの程度一般化できるか。
主な発見
| Agent | Model | Exceeds % of humans ↑ | Above Median (%) ↑ |
|---|---|---|---|
| AIDE | GPT-4 Turbo | 51.38 | 50.00 |
| AutoML (H2O) | N/A | 35.34 | 18.75 |
| AutoGPT (Langchain) | GPT-4 Turbo | 32.34 | 0.00 |
| Human with ChatGPT | GPT-4 Turbo | 41.17 | 18.75 |
- 16 件のタブラー Kaggle タスク(Weco-Kaggle Lite)で、GPT-4 Turbo を用いた AIDE は Exceeds % of humans = 51.38% および Above Median = 50.00% を達成。
- 全体の Weco-Kaggle において、AIDE は平均 Exceeds % of Humans = 48.23%、Above Median = 49.21%。
- Lite ベンチマークにおいて、AIDE は Exceeds % of humans で H2O AutoML および LangChain AutoGPT を一般的に上回る。
- 独立評価(MLE-Bench)では、反復洗練により AIDE が高いメダル数と有効提出を達成し、いくつかのベースラインエージェントを上回る。
- METR(RE-Bench)タスクは、短時間ウィンドウで人間の専門家を上回ることができ、いくつかのカーネル最適化タスクでも有効性を示す。
- 結果は、ML エンジニアリングタスクおよび関連する AI R&D の課題に対して、ソリューションツリー・コード空間探索アプローチの有効性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。