[论文解读] LAB-Bench: Measuring Capabilities of Language Models for Biology Research
LAB-Bench 是一个大型的多任务基准测试(超过2,400道选择题),用于评估前沿语言模型在实际生物学研究任务中的表现,包括文献回忆、图表解读、数据库访问、协议撰写以及DNA/蛋白质序列操作,并与人类对比,公开子集可用。
There is widespread optimism that frontier Large Language Models (LLMs) and LLM-augmented systems have the potential to rapidly accelerate scientific discovery across disciplines. Today, many benchmarks exist to measure LLM knowledge and reasoning on textbook-style science questions, but few if any benchmarks are designed to evaluate language model performance on practical tasks required for scientific research, such as literature search, protocol planning, and data analysis. As a step toward building such benchmarks, we introduce the Language Agent Biology Benchmark (LAB-Bench), a broad dataset of over 2,400 multiple choice questions for evaluating AI systems on a range of practical biology research capabilities, including recall and reasoning over literature, interpretation of figures, access and navigation of databases, and comprehension and manipulation of DNA and protein sequences. Importantly, in contrast to previous scientific benchmarks, we expect that an AI system that can achieve consistently high scores on the more difficult LAB-Bench tasks would serve as a useful assistant for researchers in areas such as literature search and molecular cloning. As an initial assessment of the emergent scientific task capabilities of frontier language models, we measure performance of several against our benchmark and report results compared to human expert biology researchers. We will continue to update and expand LAB-Bench over time, and expect it to serve as a useful tool in the development of automated research systems going forward. A public subset of LAB-Bench is available for use at the following URL: https://huggingface.co/datasets/futurehouse/lab-bench
研究动机与目标
- 评估前沿大型语言模型及其执行超越教科书问题的实际生物学研究任务的能力。
- 评估在文献、图表、表格、数据库、协议和序列等方面的回忆、推理和操作能力。
- 将模型表现与博士级生物学家进行比较,并识别需要工具整合或更好干扰项设计的差距。
- 提供一个面向社区的公开子集,并为未来AI辅助生物学工作流程勾勒基准。
提出的方法
- 构建一个包含超过2,400道多选题的数据集,涵盖LitQA2、SuppQA、FigQA、TableQA、DbQA、ProtocolQA、SeqQA和CloningScenarios。
- 将对困难类别的手工专家生成与用于可扩展任务的程序化生成结合起来。
- 在不使用工具的前提下,使用零-shot链式推理提示对前沿模型进行评估,并在信息不足时允许模型拒绝回答。
- 在选定子集上将模型表现与人类生物学博士进行比较,并报告准确性和精确度指标。
- 提供提示、代码以及公开数据子集以实现可重复的基准测试。

实验结果
研究问题
- RQ1在无需外部工具的情况下,前沿语言模型在实际生物学研究任务中的表现如何?
- RQ2在LitQA2、SuppQA、FigQA、TableQA、DbQA、ProtocolQA、SeqQA和CloningScenarios上,模型与人类专家表现之间的差距有多大?
- RQ3在这些任务中,模型在多大程度上依赖检索、推理或考试策略?
- RQ4在评估序列操作和克隆工作流时,模型的表现与人类实验室相比如何?
主要发现
| 类别 | 子任务 # | 题号 # | 人类覆盖率 |
|---|---|---|---|
| LitQA2 | - | 248 | 100% |
| SuppQA | - | 102 | 100% |
| FigQA | - | 226 | 100% |
| TableQA | - | 305 | 82% |
| DbQA | 10 | 650 | 35% |
| ProtocolQA | - | 135 | 100% |
| SeqQA | 15 | 750 | 64% |
| CloningScenarios | - | 41 | 100% |
| Total | - | 2,457 | 69% |
- 模型在LAB-Bench任务上表现出很大差异,在某些类别中更愿意回答,而在大量需要检索的任务中存在显著拒答。
- LitQA2问题在带检索增强的设置下表现高于随机水平;若不进行检索,一些前沿模型的表现甚至可能低于随机水平。
- FigQA与DbQA仍然尤为具有挑战性,大多数模型的精度接近随机,只有少数例外(例如TableQA中的 Claude 3.5 Sonnet)。
- SeqQA 的整体精度为40-50%,其中在较简单的引物设计任务子任务中有些精度超过90%。
- Cloning Scenarios 仍显著低于人类表现,表明在复杂的现实分子克隆推理方面存在显著差距。
- 在人类在大多数任务中持续优于模型,尽管某些任务的差距较小(如TableQA中的 Claude 3.5 Sonnet)。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。