[论文解读] PerturBench: Benchmarking Machine Learning Models for Cellular Perturbation Analysis
PerturBench 提供一个模块化的基准测试框架、多样的数据集,以及一套标准化的评估指标,用于在单细胞数据中评估扰动响应模型,揭示简单模型在某些情况下可以超越一些复杂架构,并突出基于排序的指标的重要性。
We introduce a comprehensive framework for modeling single cell transcriptomic responses to perturbations, aimed at standardizing benchmarking in this rapidly evolving field. Our approach includes a modular and user-friendly model development and evaluation platform, a collection of diverse perturbational datasets, and a set of metrics designed to fairly compare models and dissect their performance. Through extensive evaluation of both published and baseline models across diverse datasets, we highlight the limitations of widely used models, such as mode collapse. We also demonstrate the importance of rank metrics which complement traditional model fit measures, such as RMSE, for validating model effectiveness. Notably, our results show that while no single model architecture clearly outperforms others, simpler architectures are generally competitive and scale well with larger datasets. Overall, this benchmarking exercise sets new standards for model evaluation, supports robust model development, and furthers the use of these models to simulate genetic and chemical screens for therapeutic discovery.
研究动机与目标
- 促使扰动响应建模的标准化基准测试,并解决数据集与指标之间的不一致性。
- 提供一个模块化的代码库,用于在单细胞数据中开发模型并评估扰动效应。
- 策划多样化的数据集,并定义在现实约束(规模、不平衡)下测试模型的生物学相关任务。
- 定义一个综合指标体系,包括基于排序的指标,以公平地比较模型。
- 重现并评估现有模型的核心组成部分,以识别其优点和局限性。
提出的方法
- 引入一个具有数据集、模型和评估 API 的模块化 PerturBench 代码库(GitHub 仓库)。
- 策划三个具有协变量转移和组合预测任务的数据集,以反映现实世界挑战。
- 实现并基准评估多种模型(CPA*、Biolord、SAMS-VAE)及基线模型(Linear、Latent Additive、Decoder、Decoder with Covariates)。
- 使用通过匹配和解缠策略框定的反事实扰动预测来比较核心组件。
- 定义评估指标,包括 RMSE、LogFC 的余弦相似度,以及用于评估扰动排序的新颖基于排名的指标。
- 使用 RMSE 和基于排名的损失(RMSE + 0.1 × rank)执行超参数优化,以选择鲁棒的配置。
实验结果
研究问题
- RQ1在跨越多样数据集的协变量转移和组合预测任务中,不同扰动响应模型的表现如何?
- RQ2在扰动预测中,简单模型和训练设置是否优于复杂的解缠或对抗方法?
- RQ3数据规模和数据不平衡如何影响扰动预测的模型性能与排序能力?
- RQ4哪些评估指标最能体现离线扰动筛选的实际效用(包括扰动排序)?
主要发现
- 简单模型,特别是带有 scGPT 嵌入的潜在加法模型,在若干指标上通常优于更复杂的模型。
- 一些模型显示模态崩塌或后验崩塌;排名指标揭示了传统指标未能捕捉的排序失败。
- 仅解码器的模型在使用协变量和扰动时也能取得有竞争力的性能,凸显了架构和归纳偏置的作用。
- 模型性能通常随训练数据增多而提升,尽管 CPA* 在某些任务上方差高且排序增益有限。
- 数据不平衡会降低若干模型的性能,使用 scGPT 嵌入有助于缓冲不平衡的影响。
- 在组合预测方面,线性模型在某些设定中可以达到甚至超过其他架构的性能,而其他架构则表现出非线性增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。