Skip to main content
QUICK REVIEW

[论文解读] Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development

Kexin Huang, Tianfan Fu|arXiv (Cornell University)|Feb 18, 2021
Computational Drug Discovery Methods被引用 145
一句话总结

Therapeutics Data Commons (TDC) 提供66个AI就绪数据集,覆盖药物发现与开发的22个学习任务,以及评估工具、分子生成预言机、排行榜和一个Python库。

ABSTRACT

Therapeutics machine learning is an emerging field with incredible opportunities for innovatiaon and impact. However, advancement in this field requires formulation of meaningful learning tasks and careful curation of datasets. Here, we introduce Therapeutics Data Commons (TDC), the first unifying platform to systematically access and evaluate machine learning across the entire range of therapeutics. To date, TDC includes 66 AI-ready datasets spread across 22 learning tasks and spanning the discovery and development of safe and effective medicines. TDC also provides an ecosystem of tools and community resources, including 33 data functions and types of meaningful data splits, 23 strategies for systematic model evaluation, 17 molecule generation oracles, and 29 public leaderboards. All resources are integrated and accessible via an open Python library. We carry out extensive experiments on selected datasets, demonstrating that even the strongest algorithms fall short of solving key therapeutics challenges, including real dataset distributional shifts, multi-scale modeling of heterogeneous data, and robust generalization to novel data points. We envision that TDC can facilitate algorithmic and scientific advances and considerably accelerate machine-learning model development, validation and transition into biomedical and clinical implementation. TDC is an open-science initiative available at https://tdcommons.ai.

研究动机与目标

  • 激励建立AI就绪的治疗数据和标准化学习任务的必要性。
  • 展示一个统一平台(TDC)的设计,用于组织治疗学机器学习的数据集、任务和评估资源。
  • 展示任务的广度(单实例、多实例、生成)以及涵盖发现到开发的66个数据集。
  • 突出评估策略、数据拆分和排行榜的生态系统,实现严格的基准测试。
  • 展示通过Python软件包和社区资源实现开源科学的可访问性。

提出的方法

  • 引入三层级、模块化的设计,将事实分组为问题(单实例、多实例、生成)。
  • 定义22个学习任务,每个任务包含多个AI就绪数据集并具标准化元数据。
  • 提供23种模型评估策略和5种数据集拆分类型,以模拟真实世界部署。
  • 提供17个分子生成预言机和29个公开排行榜,以实现公平的基准测试。
  • 提供一个开源的Python软件包,以访问所有数据集、任务和评估工具。
  • 展示跨24个TDC数据集的经验基准,使用领域特定方法与最先进方法。

实验结果

研究问题

  • RQ1需要哪些学习任务和数据集来覆盖治疗药物发现与开发的流程?
  • RQ2在治疗药物机器学习基准中,如何处理多样的数据模态与分布偏移?
  • RQ3当前最先进的模型在治疗学基准上的性能是否已经达到上限,还是仍有算法提升的空间?
  • RQ4哪些评估协议最能反映治疗模型在真实世界部署和临床转化中的表现?
  • RQ5TDC如何促进跨任务泛化和公平的模型比较?

主要发现

  • TDC聚合66个AI就绪数据集,跨22个任务,覆盖ADMET、DTI、对接和生成,并通过一个开源Python库进行整合。
  • 在24个TDC基准上的大量实验表明,强算法仍然难以应对分布偏移、多尺度异构数据,以及对新输入的泛化。
  • 领域特定方法往往可以匹配或超越通用最前沿模型,强调需要严格的评估框架和真实世界基准。
  • TDC识别治疗学中的开放机器学习挑战:低资源学习、多模态/知识图谱学习、分布偏移和因果推断。
  • 该平台提供29个排行榜和33个数据处理器,支持强健、可重复的模型比较以及潜在的临床转化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。