QUICK REVIEW

[논문 리뷰] AIDE: AI-Driven Exploration in the Space of Code

Zonglin Jiang, David A. Schmidt|ArXiv.org|2025. 02. 18.

AI-based Problem Solving and Planning인용 수 3

한 줄 요약

AIDE는 코드 솔루션의 트리 탐색을 활용하여 ML 엔지니어링을 코드-공간 최적화로 취급하는 LLM 기반 에이전트로, Kaggle 및 관련 벤치마크에서 강한 성과를 달성합니다. 표 형식의 Kaggle 작업에서 여러 베이스라인을 능가하고 많은 경우 인간 중앙값 성능에 근접하거나 이를 능가합니다.

ABSTRACT

Machine learning, the foundation of modern artificial intelligence, has driven innovations that have fundamentally transformed the world. Yet, behind advancements lies a complex and often tedious process requiring labor and compute intensive iteration and experimentation. Engineers and scientists developing machine learning models spend much of their time on trial-and-error tasks instead of conceptualizing innovative solutions or research hypotheses. To address this challenge, we introduce AI-Driven Exploration (AIDE), a machine learning engineering agent powered by large language models (LLMs). AIDE frames machine learning engineering as a code optimization problem, and formulates trial-and-error as a tree search in the space of potential solutions. By strategically reusing and refining promising solutions, AIDE effectively trades computational resources for enhanced performance, achieving state-of-the-art results on multiple machine learning engineering benchmarks, including our Kaggle evaluations, OpenAI MLE-Bench and METRs RE-Bench.

연구 동기 및 목표

머신러닝 엔지니어링의 자동화를 촉진하여 지루한 시도-오류를 줄이는 동기를 부여합니다.
ML 엔지니어링을 코드-공간 최적화로 프레이밍하여 LLM을 타깃 개선에 활용합니다.
유망한 솔루션을 재사용하고 다듬는 트리 기반 탐색 전략을 개발합니다.
ML 작업에 대한 구체적인 구현을 제공하고 Kaggle 기반 벤치마크와 비교 평가합니다.

제안 방법

검색을 상태 비저장 목표 h(s)를 가지는 코드 스크립트 공간의 최적화로 모델링합니다.
에지에 개선을 표시하고 노드가 스크립트인 솔루션 트리 T를 유지합니다.
다음에 어떤 노드를 정제할지 결정하기 위해 하드코딩된 탐색 정책 π를 사용합니다.
LLMs로 코드를 초안 작성, 디버깅 또는 개선할 수 있는 삼방 코딩 연산자 f를 적용합니다.
Σ의 요약 연산자를 활용하여 과거 컨텍스트를 응축해 프롬프트를 간결하게 유지합니다.
ML에서 데이터 미리보기 및 데이터셋 특성에 맞춘 프롬프트를 포함합니다.

실험 결과

연구 질문

RQ1AIDE가 실제 컴퓨팅 예산 내에서 ML 모델 성능을 향상시키기 위해 코드 공간을 신뢰할 수 있게 탐색할 수 있는가?
RQ2트리 구조의 점진적 개선 방식이 ML 엔지니어링 작업을 위한 모놀리식 병렬 프롬프트 전략보다 우수한가?
RQ3실제 Kaggle 스타일 작업에서 AutoML 벤치마크 및 인간 전문가와 비교하여 AIDE의 성능은 어떠한가?
RQ4표 형식 ML을 넘어 다른 AI 연구개발 과제에 대해 LLM 주도 코드 공간 탐색이 어느 정도 일반화될 수 있는가?

주요 결과

에이전트	모델	Exceeds % of humans ↑	Above Median (%) ↑
AIDE	GPT-4 Turbo	51.38	50.00
AutoML (H2O)	N/A	35.34	18.75
AutoGPT (Langchain)	GPT-4 Turbo	32.34	0.00
Human with ChatGPT	GPT-4 Turbo	41.17	18.75

16개 표 형식의 Kaggle 작업(Weco-Kaggle Lite)에서 GPT-4 Turbo를 탑재한 AIDE는 Exceeds % of humans = 51.38% 및 Above Median = 50.00%를 달성합니다.
전반적인 Weco-Kaggle에서 AIDE는 Exceeds % of Humans = 48.23% 및 Above Median = 49.21%를 평균적으로 달성합니다.
Lite 벤치마크에서 AIDE는 일반적으로 H2O AutoML 및 LangChain AutoGPT보다 Exceeds % of humans에서 우수합니다.
독립 평가(MLE-Bench)에서 AIDE는 반복적 개선으로 더 높은 메달과 타당한 제출을 달성하며 여러 베이스라인 에이전트를 능가합니다.
METR(RE-Bench) 작업에서 AIDE는 짧은 시간 창에서 인간 전문가를 능가할 수 있음을 시사합니다.
해당 결과는 ML 엔지니어링 작업 및 관련 AI R&D 과제에 대한 솔루션-트리, 코드-공간 탐색 접근 방식의 효과성을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.