[논문 리뷰] ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery
ScienceAgentBench는 데이터 기반의 과학적 작업을 위해 실행 가능한 파이썬 프로그램을 생성하는 능력을 평가하기 위해 네 가지 분야에 걸친 102개 과제의 엄격하게 검증된 벤치마크를 제공하며, 현재 에이전트의 엔드-투-엔드 자동화 능력이 제한적임을 드러낸다.
The advancements of large language models (LLMs) have piqued growing interest in developing LLM-based language agents to automate scientific discovery end-to-end, which has sparked both excitement and skepticism about their true capabilities. In this work, we call for rigorous assessment of agents on individual tasks in a scientific workflow before making bold claims on end-to-end automation. To this end, we present ScienceAgentBench, a new benchmark for evaluating language agents for data-driven scientific discovery. To ensure the scientific authenticity and real-world relevance of our benchmark, we extract 102 tasks from 44 peer-reviewed publications in four disciplines and engage nine subject matter experts to validate them. We unify the target output for every task to a self-contained Python program file and employ an array of evaluation metrics to examine the generated programs, execution results, and costs. Each task goes through multiple rounds of manual validation by annotators and subject matter experts to ensure its annotation quality and scientific plausibility. We also propose two effective strategies to mitigate data contamination concerns. Using ScienceAgentBench, we evaluate five open-weight and proprietary LLMs, each with three frameworks: direct prompting, OpenHands CodeAct, and self-debug. Given three attempts for each task, the best-performing agent can only solve 32.4% of the tasks independently and 34.3% with expert-provided knowledge. In addition, we evaluate OpenAI o1-preview with direct prompting and self-debug, which can boost the performance to 42.2%, demonstrating the effectiveness of increasing inference-time compute but with more than 10 times the cost of other LLMs. Still, our results underscore the limitations of current language agents in generating code for data-driven discovery, let alone end-to-end automation for scientific research.
연구 동기 및 목표
- 데이터 기반 발견 작업을 위한 독립적인 Python 프로그램을 생성하는 언어 에이전트의 능력을 평가한다.
- 작업을 동료 심사 논문과 전문가 검증에 기반하여 과학적 진정성을 보장한다.
- 실행, 출력 품질 및 비용 지표를 포함한 강건하고 다면적인 평가를 제공한다.
- 데이터 오염 및 지름길 전략을 완화하여 공정하고 실제 현장에 관련된 평가를 보장한다.
제안 방법
- 네 가지 분야에 걸친 44편의 동료심사 논문에서 102개 과제를 선별하고 9명의 주제 전문가로 검증한다.
- 각 과제의 출력을 독립적인 Python 프로그램으로 통일하고 실행, 출력 품질 및 비용 지표를 사용하여 평가한다.
- 프로그램마다 conda 기반 실행 환경을 구현하고 공정한 실행을 위해 pipreqs와 pip-tools로 패키지 요구사항을 도출한다.
- 필요 시 무작위 테스트 포인트 제거 및 더미 값을 사용한 라벨 데이터 재분할의 두 가지 데이터 오염 완화 전략을 적용한다.
- 자동 지표(VER, SR, CBS, Cost)와 루브릭 기반 인간 평가를 통한 미세한 평가의 2단계 평가를 활용한다.
- 세 가지 프레임워크(Direct Prompting, OpenHands CodeAct, Self-Debug)에서 다섯 개의 공개 가중치 및 독점 LLM을 세 차례의 과제 시도와 함께 비교한다.
실험 결과
연구 질문
- RQ1다양하고 실제 세계의 데이터 기반 발견 작업 모음에서 현재 언어 에이전트가 달성할 수 있는 성공률은 얼마인가?
- RQ2다른 에이전트 프레임워크와 LLM이 실행 가능한 코드 생성, 과제 성공 및 비용에 어떤 영향을 미치는가?
- RQ3전문가 지식을 제공하는 것이 에이전트 성능을 향상시키는가, 어떤 조건에서인가?
- RQ4실행 피드백(셀프 디버그)이 프로그램 생성 품질 향상에 어떤 역할을 하는가?
- RQ5데이터 오염 완화 전략이 벤치마크 평가에서 지름길 솔루션을 효과적으로 방지할 수 있는가?
주요 결과
- 가장 성능이 좋은 에이전트는 전문가 지식과 함께 34.3%의 SR을 달성하여, 데이터 기반 발견 작업 해결의 현재 한계를 강조한다.
- 지식 없이도 self-debug를 갖춘 Claude-3.5-Sonnet은 32.4% SR을 달성하며, 실행 기반 디버깅으로부터의 미미한 이득을 보여준다.
- 직접 프롬프트는 대부분의 모델에서 self-debug에 비해 성능이 현저히 낮으며, self-debug가 여러 에이전트의 SR을 두 배 이상 증가시킨다.
- 프레임워크와 모델에 걸쳐 비용은 여전히 중요한 요소이며, 일부 저비용 구성은 더 비싼 옵션에 비해 경쟁력 있는 성능을 달성한다.
- 전문가가 제공한 지식은 SR과 CBS를 개선할 수 있지만 익숙하지 않은 API나 과도하게 명시된 도구로 인해 VER이 감소할 수 있어, 지침의 미묘한 이점을 시사한다.
- 전반적으로 에이전트는 도메인 특화 도구를 포함한 복잡하고 이질적인 과학 작업에서 어려움을 겪으며, 엔드 투 엔드 자동화가 아직 가능하지 않음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.