[論文レビュー] ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery
ScienceAgentBench は、データ駆動型の科学タスクの実行可能な Python プログラムを生成する能力を評価するため、4つの分野にまたがる102のタスクを厳密に検証済みのベンチマークとして提供し、現在のエージェントのエンドツーエンド自動化能力が限定的であることを明らかにします。
The advancements of large language models (LLMs) have piqued growing interest in developing LLM-based language agents to automate scientific discovery end-to-end, which has sparked both excitement and skepticism about their true capabilities. In this work, we call for rigorous assessment of agents on individual tasks in a scientific workflow before making bold claims on end-to-end automation. To this end, we present ScienceAgentBench, a new benchmark for evaluating language agents for data-driven scientific discovery. To ensure the scientific authenticity and real-world relevance of our benchmark, we extract 102 tasks from 44 peer-reviewed publications in four disciplines and engage nine subject matter experts to validate them. We unify the target output for every task to a self-contained Python program file and employ an array of evaluation metrics to examine the generated programs, execution results, and costs. Each task goes through multiple rounds of manual validation by annotators and subject matter experts to ensure its annotation quality and scientific plausibility. We also propose two effective strategies to mitigate data contamination concerns. Using ScienceAgentBench, we evaluate five open-weight and proprietary LLMs, each with three frameworks: direct prompting, OpenHands CodeAct, and self-debug. Given three attempts for each task, the best-performing agent can only solve 32.4% of the tasks independently and 34.3% with expert-provided knowledge. In addition, we evaluate OpenAI o1-preview with direct prompting and self-debug, which can boost the performance to 42.2%, demonstrating the effectiveness of increasing inference-time compute but with more than 10 times the cost of other LLMs. Still, our results underscore the limitations of current language agents in generating code for data-driven discovery, let alone end-to-end automation for scientific research.
研究の動機と目的
- データ駆動型の発見タスクのために、自己完結型の Python プログラムを生成する言語エージェントの能力を評価する。
- タスクを査読付き論文と専門家の検証に基づいて科学的信頼性を担保する。
- 実行、出力品質、コスト指標を含む堅牢で多面的な評価を提供する。
- データ汚染とショートカット戦略を緩和し、公正で現実世界に関連する評価を保証する。
提案手法
- 4つの分野にまたがる44件の査読済み論文から102のタスクをキュレーションし、9名の専門家で検証する。
- 各タスクの出力を自己完結型の Python プログラムに統一し、実行、出力品質、コスト指標を用いて評価する。
- 各プログラムごとに conda ベースの実行環境を実装し、pipreqs と pip-tools を用いて公正な実行のためのパッケージ要件を導出する。
- 必要に応じてランダムなテストポイントの除去とラベル付きデータのダミー値による再分割というデータ汚染緩和の2つの戦略を適用する。
- 自動指標(VER、SR、CBS、Cost)とルーブリックベースの人間評価による細粒度評価を組み合わせた2段階評価を実施する。
- 3つのフレームワーク(Direct Prompting、OpenHands CodeAct、Self-Debug)を横断して、5つのオープンウェイトおよびプロプライエタリ LLM を比較し、それぞれ3回のタスク試行を行う。
実験結果
リサーチクエスチョン
- RQ1多様で現実世界のデータ駆動型発見タスクのセットに対して、現在の言語エージェントが達成できる成功率はどの程度か。
- RQ2異なるエージェントフレームワークと LLM が、実行可能なコード生成、タスクの成功、コストにどのような影響を与えるか。
- RQ3専門家の知識を提供することがエージェントの性能を改善するか、どの条件下でそうなるか。
- RQ4実行フィードバック(self-debug)はプログラム生成品質の向上にどのような役割を果たすか。
- RQ5データ汚染緩和戦略は、ベンチマーク評価におけるショートカット解を効果的に防ぐことができるか。
主な発見
- 最も高い性能を示したエージェントは専門家知識を用いて34.3%の SR を達成し、データ駆動型発見タスクの解決における現在の限界を浮き彫りにしている。
- 知識なしでは、self-debug を用いた Claude-3.5-Sonnet が32.4%のSRを達成し、実行ベースのデバッグによる控えめな向上を示している。
- Direct prompting は多くのモデルで self-debug よりも著しく低い性能を示し、self-debug が SR を2倍以上に引き上げる。
- フレームワークとモデルを横断して、コストは依然として重要な要因であり、低コストの構成の中には高価なオプションに比べて競争力のある性能を示すものがある。
- 専門家提供の知識は SR や CBS を向上させる可能性がある一方で、馴染みのない API や過剰なツール設定のせいで VER が低下する可能性があり、ガイダンスの利点はニュアンスがあることを示している。
- 全体として、エージェントは複雑で異種の科学タスク、特に分野特有のツールを含むタスクで苦戦しており、エンドツーエンドの自動化はまだ実現可能ではないことを示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。