Skip to main content
QUICK REVIEW

[论文解读] Therapeutics Data Commons: Machine Learning Datasets and Tasks for Therapeutics

Kexin Huang, Tianfan Fu|arXiv (Cornell University)|Feb 18, 2021
Computational Drug Discovery Methods参考文献 6被引用 25
一句话总结

Therapeutics Data Commons (TDC) 是一个开源框架,将 66 个机器学习就绪的数据集统一到 22 项治疗任务中,支持系统化的模型评估、数据处理和分子生成。通过提供标准化工具、排行榜和数据划分,TDC 加速了算法创新,推动生物医学和临床转化。

ABSTRACT

Machine learning for therapeutics is an emerging field with incredible opportunities for innovation and expansion. Despite the initial success, many key challenges remain open. Here, we introduce Therapeutics Data Commons (TDC), the first unifying framework to systematically access and evaluate machine learning across the entire range of therapeutics. At its core, TDC is a collection of curated datasets and learning tasks that can translate algorithmic innovation into biomedical and clinical implementation. To date, TDC includes 66 machine learning-ready datasets from 22 learning tasks, spanning the discovery and development of safe and effective medicines. TDC also provides an ecosystem of tools, libraries, leaderboards, and community resources, including data functions, strategies for systematic model evaluation, meaningful data splits, data processors, and molecule generation oracles. All datasets and learning tasks are integrated and accessible via an open-source library. We envision that TDC can facilitate algorithmic and scientific advances and accelerate development, validation, and transition into production and clinical implementation. TDC is a continuous, open-source initiative, and we invite contributions from the research community. TDC is publicly available at this https URL.

研究动机与目标

  • 解决在治疗领域中机器学习缺乏标准化、统一的数据集和评估框架的问题。
  • 系统性地整理和组织涵盖药物发现与开发的多样化治疗数据集。
  • 提供一个集成的工具、数据处理器和评估策略生态系统,以加速模型验证和临床实施。
  • 通过有意义的数据划分和排行榜基准测试,实现可重现的系统化模型评估。
  • 促进社区驱动的贡献,以扩展并维持该框架,实现长期科学影响。

提出的方法

  • 从多样化的治疗领域(包括药物发现、毒性预测和药代动力学)整理 66 个机器学习就绪的数据集。
  • 定义 22 项标准化的学习任务,覆盖从靶点识别到临床结果的整个药物开发流程。
  • 实施一个模块化的开源库,实现数据的无缝访问、预处理和模型评估。
  • 集成数据处理器和生成模型的“预言机”(oracles),以支持药物设计中的生成式人工智能应用。
  • 建立系统化的数据划分(例如按化合物、靶点或时间)以防止数据泄露,并确保模型评估的真实性。
  • 开发排行榜和评估协议,用于在不同任务和数据集之间基准测试模型性能。

实验结果

研究问题

  • RQ1统一框架在治疗领域机器学习中的可重现性和基准测试方面能带来哪些改进?
  • RQ2在系统性整理和组织多样化的治疗数据集以支持机器学习时,面临哪些关键挑战?
  • RQ3系统化的数据划分和评估协议如何提升模型的泛化能力和临床相关性?
  • RQ4标准化工具和社区贡献在多大程度上能加速药物发现的创新?
  • RQ5一个集中化、开源的生态系统能否有效支持治疗领域中的生成式与判别式模型?

主要发现

  • TDC 提供了 66 个经过整理、可直接用于机器学习的数据集,覆盖 22 项治疗任务,支持在药物发现与开发中的广泛应用。
  • 该框架包含标准化的数据划分和评估协议,可减少数据泄露,提升模型泛化能力。
  • TDC 集成了用于分子生成的工具,包括预言机(oracles),以支持生成式人工智能在设计新型治疗药物中的应用。
  • 开源库实现了数据集、数据处理器和评估工作流的无缝集成,支持可重现的研究。
  • TDC 支持社区贡献,确保平台的持续扩展和长期可持续性。
  • 该生态系统包含排行榜和评估策略,有助于在多样化治疗任务中对机器学习模型进行基准测试和比较。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。