QUICK REVIEW

[논문 리뷰] MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Deepak Nathani, Lovish Madaan|ArXiv.org|2025. 02. 20.

Semantic Web and Ontologies인용 수 4

한 줄 요약

MLGym은 오픈 엔드 ML 연구 과제를 수행하는 AI 연구 에이전트를 평가하고 개발하기 위한 Gym 기반 프레임워크와 Bench를 도입합니다. 도구, 메모리, 다양한 도메인을 포함합니다. frontier LLM을 평가하고 새로운 다중 작업 평가 지표를 제안합니다.

ABSTRACT

We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for evaluating and developing LLM agents on AI research tasks. This is the first Gym environment for machine learning (ML) tasks, enabling research on reinforcement learning (RL) algorithms for training such agents. MLGym-bench consists of 13 diverse and open-ended AI research tasks from diverse domains such as computer vision, natural language processing, reinforcement learning, and game theory. Solving these tasks requires real-world AI research skills such as generating new ideas and hypotheses, creating and processing data, implementing ML methods, training models, running experiments, analyzing the results, and iterating through this process to improve on a given task. We evaluate a number of frontier large language models (LLMs) on our benchmarks such as Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, and Gemini-1.5 Pro. Our MLGym framework makes it easy to add new tasks, integrate and evaluate models or agents, generate synthetic data at scale, as well as develop new learning algorithms for training agents on AI research tasks. We find that current frontier models can improve on the given baselines, usually by finding better hyperparameters, but do not generate novel hypotheses, algorithms, architectures, or substantial improvements. We open-source our framework and benchmark to facilitate future research in advancing the AI research capabilities of LLM agents.

연구 동기 및 목표

오픈 엔드 ML 과제를 수행하는 AI 연구 에이전트를 평가하기 위한 Gym 기반 프레임워크를 제공합니다.
CV, NLP, RL, 및 게임 이론에 걸친 13개의 다양한 AI 연구 과제로 구성된 MLGym-Bench를 제공합니다.
AI 연구 에이전트에 대한 다양한 학습 알고리즘(RL, 커리큘럼 학습, 오픈-엔드 학습)의 평가를 가능하게 합니다.
실제 연구 워크플로우를 반영하기 위해 모델, 알고리즘, 코드 등의 유연한 산출물을 평가 출력으로 허용합니다.
이질적인 지표를 가진 과제들 간에 에이전트를 비교하기 위한 새로운 평가 지표를 도입합니다.

제안 방법

에이전트를 기본 LLM 위에 히스토리, 도구, 비용 관리가 포함된 래퍼로 정의합니다.
환경은 도커 샌드박스에서 비루트 액세스로 실행되는 Gymnasium 기반 쉘로 구현합니다.
로컬 데이터와 Hugging Face 데이터를 읽기 전용 보장을 갖춘 분리된 추상화로 제공합니다.
데이터세트, 환경, 평가 스크립트, 예산 등을 포함하는 구성 파일을 통해 작업을 설명합니다.
ACI 기반 명령, 문헌 검색, 메모리 모듈, 권한 관리로 도구를 확장합니다.
지식 통합을 위한 문헌 파싱과 함께 검증(validate) 및 제출(submit) 명령이 포함된 확장 평가 흐름을 제공합니다.

실험 결과

연구 질문

RQ1통합된 Gym 기반 프레임워크가 여러 도메인에 걸친 오픈-엔드 AI 연구 과제를 지원할 수 있을까?
RQ2최전선 LLM이 MLGym-Bench 내의 오픈-엔드 AI 연구 과제에서 SOTA를 달성하거나 새로운 기여를 하는가?
RQ3표준화된 평가 프로토콜 하에서 AI 연구 과제의 진행을 가장 잘 반영하는 산출물(모델, 알고리즘, 코드)은 무엇인가?
RQ4제안된 메모리 모듈과 도구 보강 설정이 장기적인 AI 연구 워크플로우를 향상시키는가?
RQ5오픈-엔드 연구 과제를 가능하게 하는 데 있어 MLGym은 기존 에이전트 프레임워크와 벤치마크와 어떻게 비교되는가?

주요 결과

MLGym은 통합된 Gym 환경에서 오픈-엔드 AI 연구 과제 평가를 가능하게 하고 에이전트의 RL 기반 학습을 지원합니다.
MLGym-Bench는 CV, NLP, RL, 게임 이론에 걸친 13개의 다양한 과제를 포함하여 AI 연구 워크플로우를 평가합니다.
최전선 LLM은 주로 하이퍼파라미터 튜닝을 통해 베이스라인 대비 개선을 보이며 새로운 가설이나 아키텍처를 생성하기보다는 개선됩니다.
이 프레임워크는 모델 가중치, RL 알고리즘, 또는 연구 전략을 나타내는 코드와 같은 유연한 평가 산출물을 가능하게 합니다.
다른 성능 지표를 가진 과제들에서 에이전트를 공정하게 비교하기 위한 새로운 평가 지표가 제안됩니다.
실험은 메모리 및 도구 향상이 에이전트가 장기간에 걸쳐 학습 구성을 보유하고 재사용하는 데 도움을 준다는 것을 나타냅니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.