[论文解读] DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise Annotations
DrugOOD 提供一个自动化的 OOD 数据集策展工具和用于 AI 辅助药物发现的基准,聚焦于结合亲和力预测,带有现实的噪声注释和领域划分。
AI-aided drug discovery (AIDD) is gaining increasing popularity due to its promise of making the search for new pharmaceuticals quicker, cheaper and more efficient. In spite of its extensive use in many fields, such as ADMET prediction, virtual screening, protein folding and generative chemistry, little has been explored in terms of the out-of-distribution (OOD) learning problem with \emph{noise}, which is inevitable in real world AIDD applications. In this work, we present DrugOOD, a systematic OOD dataset curator and benchmark for AI-aided drug discovery, which comes with an open-source Python package that fully automates the data curation and OOD benchmarking processes. We focus on one of the most crucial problems in AIDD: drug target binding affinity prediction, which involves both macromolecule (protein target) and small-molecule (drug compound). In contrast to only providing fixed datasets, DrugOOD offers automated dataset curator with user-friendly customization scripts, rich domain annotations aligned with biochemistry knowledge, realistic noise annotations and rigorous benchmarking of state-of-the-art OOD algorithms. Since the molecular data is often modeled as irregular graphs using graph neural network (GNN) backbones, DrugOOD also serves as a valuable testbed for \emph{graph OOD learning} problems. Extensive empirical studies have shown a significant performance gap between in-distribution and out-of-distribution experiments, which highlights the need to develop better schemes that can allow for OOD generalization under noise for AIDD.
研究动机与目标
- 在分布漂移和标签噪声下,推动 AI 辅助药物发现(AIDD)的鲁棒泛化。
- 基于 ChEMBL 提供高度可定制、可重复的 OOD 数据集策划流水线。
- 注释现实世界的领域和噪声水平,以实现对模型的现实评估。
- 在覆盖 LBAP 和 SBAP 任务的 96 个实现数据集上基准测试最先进的 OOD 算法。
提出的方法
- 自动数据集策展工具,从 ChEMBL 构建具有可配置噪声和领域定义的 OOD 数据集。
- 丰富的领域注释,结合生物化学知识,用于定义靶向和分子为中心的领域。
- 三种噪声水平(core、refined、general)通过置信分数、数值关系和测定特征进行注释。
- 评估六种 SOTA OOD 算法的基准方案,使用图模型和基于变换器的骨干网络。
- 同时支持配体基于亲和力预测(LBAP)和结构基于亲和力预测(SBAP)。
- 提供一个开源 Python 包,用于自动化数据策划、加载和算法配置。
实验结果
研究问题
- RQ1在现实噪声下,分布内训练的模型在未看见的领域中对 AIDD 亲和力预测的泛化能力如何?
- RQ2在不同噪声水平下,分布内与分布外目标和测定之间的性能差距有多大?
- RQ3在 LBAP 和 SBAP 任务中,面对领域转移和带噪声标签的情况下,最先进的 OOD 算法的有效性如何?
- RQ4DrugOOD 的策划数据集能否作为药物发现中基于图的 OOD 学习的现实测试平台?
主要发现
- 在 OOD 设置下,跨越未见领域的评估相比于已见领域存在显著的性能下降。
- 不同的噪声水平(core、refined、general)影响数据集规模和噪声源,从而影响模型鲁棒性。
- 最先进的 OOD 方法在领域转移和噪声注释下的效力差异显著,凸显在 AIDD 的噪声下需要改进 OOD 泛化。
- LBAP 和 SBAP 基准证明在 OOD 条件下使用基于图的和基于序列的骨干进行亲和力预测的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。