[论文解读] TorchDrug: A Powerful and Flexible Machine Learning Platform for Drug Discovery
TorchDrug 是一个开源的基于 PyTorch 的平台,提供低级、中级和高级工具用于药物发现任务,能够在特性预测、预训练表示、从头设计、反向合成,以及生物医学知识图谱推理等方面实现快速原型。
Machine learning has huge potential to revolutionize the field of drug discovery and is attracting increasing attention in recent years. However, lacking domain knowledge (e.g., which tasks to work on), standard benchmarks and data preprocessing pipelines are the main obstacles for machine learning researchers to work in this domain. To facilitate the progress of machine learning for drug discovery, we develop TorchDrug, a powerful and flexible machine learning platform for drug discovery built on top of PyTorch. TorchDrug benchmarks a variety of important tasks in drug discovery, including molecular property prediction, pretrained molecular representations, de novo molecular design and optimization, retrosynthsis prediction, and biomedical knowledge graph reasoning. State-of-the-art techniques based on geometric deep learning (or graph machine learning), deep generative models, reinforcement learning and knowledge graph reasoning are implemented for these tasks. TorchDrug features a hierarchical interface that facilitates customization from both novices and experts in this domain. Tutorials, benchmark results and documentation are available at https://torchdrug.ai. Code is released under Apache License 2.0.
研究动机与目标
- 由于领域知识差距和缺乏标准基准的原因,动机是需要一个灵活的 ML 平台用于药物发现。
- 提供一个分层接口,降低新手门槛,同时实现专家级定制。
- 提供全面的任务与基准,促进在关键药物发现问题上的实验加速。
- 展示可重复使用的组件(数据结构、层、模型)和任务级流程,以简化开发。
提出的方法
- 将同质图、知识图谱和分子引入为一等公民的数据结构,并提供 GPU 加速的图操作。
- 提供类似 PyTorch 的 Dataset 接口,涵盖 5 个药物发现任务中的 30 个数据集。
- 提供数据处理、模型构建和任务执行的低、中、高级 API。
- 在 TorchDrug 内实现图学习、深度生成模型、强化学习和知识图谱推理等领域的最前沿技术。
- 描述一个分层接口,支持不同专业水平研究者的快速原型设计和定制。
实验结果
研究问题
- RQ1如何通过一个统一的、模块化的平台,在多个任务中加速药物发现领域的机器学习研究?
- RQ2应打包哪些数据集、模型和任务,以实现高效基准测试和快速原型开发?
- RQ3TorchDrug 是否能够提供 GPU 加速、领域无关的图操作,并与标准 PyTorch 工作流集成?
- RQ4分层 API 设计对新手的易用性和对专家的灵活性有何影响?
主要发现
- TorchDrug 提供数据结构(图、知识图谱、分子),并具备 GPU 加速的操作与 PyTorch 风格接口。
- datasets 模块包含 30 个常用数据集,覆盖 5 个药物发现任务。
- TorchDrug 支持包括性质预测、预训练分子表征、从头设计与优化分子、反向合成,以及生物医学知识图谱推理等多种任务。
- 该平台在其生态系统中标榜最前沿的技术,如几何深度学习、深度生成模型、强化学习和知识图谱推理。
- 自 2021 年 8 月发布以来,TorchDrug 已在 PyPI 和 Anaconda 上获得显著采用,下载量超过 5,000 次。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。