[论文解读] Toxicity Prediction using Deep Learning
本文提出了一种深度学习方法用于毒性预测,可自动学习类似于专家设计的毒性药效团的化学特征。通过在ECFP4指纹上使用深度神经网络,该方法在Tox21数据挑战赛中表现优于所有其他技术,赢得了全部三个赛道——包括总冠军赛——在15个子挑战中均达到最先进水平。
Everyday we are exposed to various chemicals via food additives, cleaning and cosmetic products and medicines -- and some of them might be toxic. However testing the toxicity of all existing compounds by biological experiments is neither financially nor logistically feasible. Therefore the government agencies NIH, EPA and FDA launched the Tox21 Data Challenge within the "Toxicology in the 21st Century" (Tox21) initiative. The goal of this challenge was to assess the performance of computational methods in predicting the toxicity of chemical compounds. State of the art toxicity prediction methods build upon specifically-designed chemical descriptors developed over decades. Though Deep Learning is new to the field and was never applied to toxicity prediction before, it clearly outperformed all other participating methods. In this application paper we show that deep nets automatically learn features resembling well-established toxicophores. In total, our Deep Learning approach won both of the panel-challenges (nuclear receptors and stress response) as well as the overall Grand Challenge, and thereby sets a new standard in tox prediction.
研究动机与目标
- 开发一种计算方法以预测化学毒性,其规模可超越生物学上不可行的高通量筛选。
- 克服传统结构依赖或配体依赖方法的局限性,这些方法依赖手工设计的描述符或需要已知的三维结构。
- 将深度学习应用于毒性预测领域,该领域此前尚未使用过深度学习,以评估其在自动特征学习方面的潜力。
- 证明深度神经网络可直接从化学指纹中学习有意义且具有生物学相关性的表征,如毒性药效团。
- 在Tox21数据挑战赛中实现卓越性能,该挑战赛评估了多种生物通路和检测方法中的毒性预测。
提出的方法
- 采用在ECFP4指纹上训练的深度神经网络,这些指纹编码了化学化合物的亚结构片段。
- 采用分层特征学习:低层级的ECFP4特征在深层网络中组合形成反应中心,最终形成毒性药效团。
- 应用多任务学习,同时预测12种不同生物检测(如核受体和应激反应通路)中的毒性。
- 使用随机梯度下降进行端到端训练,通过反向传播优化AUC(ROC曲线下面积)。
- 利用Dropout和批量归一化防止过拟合并提高在多样化化学结构上的泛化能力。
- 通过在多个毒性预测任务间共享表征,利用迁移学习原理,提升低数据目标的表现。
实验结果
研究问题
- RQ1深度神经网络能否在无需专家设计描述符的情况下,直接从原始化学指纹中自动学习到具有生物学意义的特征(如毒性药效团)?
- RQ2深度学习在预测多种生物通路中的毒性时,是否优于传统机器学习方法?
- RQ3多任务学习能否提升在训练数据有限的毒性检测中的预测性能?
- RQ4深度网络中学习到的表征是否与已知毒性药效团相符,或揭示了新的结构基序?
- RQ5单一深度学习模型能否同时在多个毒性预测挑战中实现最先进水平?
主要发现
- 该深度学习模型在Tox21数据挑战赛的全部15个子挑战中平均AUC最高,赢得总冠军赛。
- 在核受体和应激反应两个赛道中均获得第一名,且每个赛道的平均AUC均为最佳。
- 在任何单一子挑战中,其排名从未低于第五名,表现出一致且稳健的性能。
- 网络高层学习到的表征对应于已知毒性药效团,如芳香环和电子受体,验证了特征的生物学相关性。
- 该模型优于所有其他方法,包括专为毒性预测设计的方法,证明端到端深度学习可超越手工设计方法。
- 结果表明,深度学习可从数据中发现复杂且分层的化学特征,暗示其在识别新型毒性药效团方面的潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。