[论文解读] Self-Attention Based Molecule Representation for Predicting Drug-Target Interaction
本文提出 MT-DTI,一种基于自注意力的分子表示在 PubChem 数据上进行自我预训练,并针对药物-靶点相互作用预测进行微调,在 Kiba 和 Davis 基准上达到最先进的结果,并在 EGFR 的实际药物候选排序中证明了其实用性。
Predicting drug-target interactions (DTI) is an essential part of the drug discovery process, which is an expensive process in terms of time and cost. Therefore, reducing DTI cost could lead to reduced healthcare costs for a patient. In addition, a precisely learned molecule representation in a DTI model could contribute to developing personalized medicine, which will help many patient cohorts. In this paper, we propose a new molecule representation based on the self-attention mechanism, and a new DTI model using our molecule representation. The experiments show that our DTI model outperforms the state of the art by up to 4.9% points in terms of area under the precision-recall curve. Moreover, a study using the DrugBank database proves that our model effectively lists all known drugs targeting a specific cancer biomarker in the top-30 candidate list.
研究动机与目标
- 动机:降低药物-靶点相互作用(DTI)预测成本,以加速药物发现并实现个性化医疗。
- 提出使用自注意力的新分子表示,以在SMILES序列中捕捉远程原子关系。
- 在大型 PubChem 语料库上对分子表示进行预训练,并通过微调将其迁移到 DTI 模型。
- 开发将分子变换器、蛋白质 CNN 和相互作用密集层结合起来以进行亲和力预测的 MT-DTI 架构。
- 在公开的 DTI 基准上评估 MT-DTI,并展示在 DrugBank 上的实际药物排序能力。
提出的方法
- 基于 Transformer 编码器、对 SMILES 序列使用自注意力的分子变换器(MT)开发,包含 token 与位置嵌入,以及用于固定长度分子表示的 [REP] token。
- 在 9700 万个 PubChem 分子上,以掩码语言模型目标对 MT 进行预训练。
- 通过将 M_rep 与蛋白质 CNN 产生的 P_rep 结合,并经由 Interaction Denses 预测亲和力,对 MT 进行 DTI 微调。
- 使用蛋白质 CNN 将 FASTA 序列转换为固定大小的蛋白质嵌入。
- 使用回归指标(MSE、一致性指数、r_m^2)和 AUPR 进行评估,在某些分析中对标签进行阈值化以便二分类解读。
实验结果
研究问题
- RQ1以自注意力为基础的分子表示是否能在 DTI 预测中超越基于 CNN 的方法?
- RQ2在大型公开化合物语料库上对分子表示进行预训练是否能通过微调改善下游 DTI 的性能?
- RQ3在标准基准上,MT-DTI 与现有的基于相似性的方法及深度学习 DTI 模型相比如何?
- RQ4该模型是否能够有效地对某个靶蛋白的已知药物进行排序(生物学案例研究)?
- RQ5微调与仅使用预训练表示而不进行微调相比的影响是什么?
主要发现
| Method | CI (std) | MSE | r_m^2 (std) | AUPR (std) |
|---|---|---|---|---|
| Kiba/KronRLS | 0.782 (0.001) | 0.411 | 0.342 (0.001) | 0.635 (0.004) |
| Kiba/SimBoost | 0.836 (0.001) | 0.222 | 0.629 (0.007) | 0.760 (0.003) |
| Kiba/DeepDTA | 0.863 (0.002) | 0.194 | 0.673 (0.009) | 0.788 (0.004) |
| Kiba/MT-DTI w/oFT | 0.844 (0.001) | 0.220 | 0.584 (0.002) | 0.789 (0.004) |
| Kiba/MT-DTI | 0.882 (0.001) | 0.152 | 0.738 (0.006) | 0.837 (0.003) |
| Davis/KronRLS | 0.871 (0.001) | 0.379 | 0.407 (0.005) | 0.661 (0.010) |
| Davis/SimBoost | 0.872 (0.002) | 0.282 | 0.644 (0.006) | 0.709 (0.008) |
| Davis/DeepDTA | 0.878 (0.004) | 0.261 | 0.630 (0.017) | 0.714 (0.010) |
| Davis/MT-DTI w/oFT | 0.875 (0.001) | 0.268 | 0.633 (0.013) | 0.700 (0.011) |
| Davis/MT-DTI | 0.887 (0.003) | 0.245 | 0.665 (0.014) | 0.730 (0.014) |
- MT-DTI 在 Kiba 和 Davis 基准上在所有报告的指标上均优于基线。
- 在 Kiba 上,MT-DTI 在 CI、MSE、r_m^2和 AUPR 等指标中均为比较方法中的最佳。
- 在 Davis 上,MT-DTI 再次在 CI、MSE、r_m^2 和 AUPR 上达到最佳。
- 预训练的 MT 无微调(MT-DTI w/oFT)已超过若干基线,表明来自预训练的化学结构知识有用。
- 使用 DrugBank 的案例研究显示,在预测候选中,已知靶向 EGFR 的药物的前30名富集。
- 该模型受益于更大规模的训练数据,随着数据增加,性能更加稳定。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。