Skip to main content
QUICK REVIEW

[论文解读] Massively Multitask Networks for Drug Discovery

Bharath Ramsundar, Steven Kearnes|arXiv (Cornell University)|Feb 6, 2015
Machine Learning in Materials Science参考文献 11被引用 401
一句话总结

本文提出大规模多任务深度神经网络(MTNNs),利用跨越200多个生物靶标的4000万条实验测量数据,提升虚拟药物筛选的性能。通过在多样化任务间共享表征,该模型相较于单任务方法实现了显著更高的预测准确率,且随着更多数据和任务的加入,性能持续提升,展现出药物发现领域强大的可扩展性与迁移学习潜力。

ABSTRACT

Massively multitask neural architectures provide a learning framework for drug discovery that synthesizes information from many distinct biological sources. To train these architectures at scale, we gather large amounts of data from public sources to create a dataset of nearly 40 million measurements across more than 200 biological targets. We investigate several aspects of the multitask framework by performing a series of empirical studies and obtain some interesting results: (1) massively multitask networks obtain predictive accuracies significantly better than single-task methods, (2) the predictive power of multitask networks improves as additional tasks and data are added, (3) the total amount of data and the total number of tasks both contribute significantly to multitask improvement, and (4) multitask networks afford limited transferability to tasks not in the training set. Our results underscore the need for greater data sharing and further algorithmic innovation to accelerate the drug discovery process.

研究动机与目标

  • 整合多样化的生物数据源,以应对虚拟筛选中命中率低和数据稀缺的挑战。
  • 通过大规模多任务学习,克服药物活性预测中的过拟合与类别不平衡问题。
  • 探究多任务深度学习是否能够同时提升多个药物靶标的预测性能。
  • 探究数据量、任务数量及任务多样性对模型泛化能力与可迁移性的影响。

提出的方法

  • 在259个不同的生物靶标上训练具有共享隐藏层的深度前馈神经网络,以实现参数共享与信息迁移。
  • 使用分子指纹(ECFP4)作为输入特征,将小分子表示为固定长度的向量空间。
  • 应用类别加权损失函数,以平衡每个数据集中不活跃化合物的高比例。
  • 使用带有学习率调度和批量归一化的随机梯度下降法训练模型,以稳定训练过程。
  • 采用逐层宽度递减的金字塔结构,压缩表征并提升泛化能力。
  • 通过5折交叉验证评估模型,并报告所有任务的中位AUC分数,以确保结果稳健。

实验结果

研究问题

  • RQ1大规模多任务网络是否能在虚拟筛选中显著优于单任务模型?
  • RQ2任务总数与数据总量如何共同影响多任务学习的性能?
  • RQ3多任务网络所学习的特征在多大程度上可迁移至新的、未见过的药物-靶标预测任务?
  • RQ4生物靶标类别或共享活性化合物在多任务性能提升中起到何种作用?
  • RQ5网络架构设计(如金字塔结构与标准结构)是否显著影响模型性能与稳定性?

主要发现

  • 大规模多任务网络在PCBA数据集上的中位AUC达到0.846,显著高于单任务模型,配对t检验的p值≤1.86 × 10⁻¹⁵。
  • 随着任务数和数据量的增加,性能持续单调提升,在4000万条测量数据范围内未观察到性能饱和。
  • 消融实验表明,任务总数与数据总量均对性能增益有显著贡献。
  • 模型在未见任务上展现出有限但可测量的可迁移性,零样本预测设置中观察到一定程度的泛化能力。
  • 任务间共享活性化合物的存在与多任务性能提升呈中度相关,而靶标生物类别则无显著相关性。
  • 采用学习率调度的金字塔架构(前200万步为0.0001,之后调整为0.0003)相比更高学习率,显著降低了训练失败率并提升了稳定性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。