[论文解读] Self-Attention Based Molecule Representation for Predicting Drug-Target Interaction
本文提出 MT-DTI,一种药物-靶点相互作用模型,使用预训练的 Molecule Transformer(自注意力)进行分子表征,以及基于 CNN 的蛋白质编码,通过从 PubChem 数据迁移学习,在 Kiba 与 Davis 基准测试中达到 state-of-the-art。
Predicting drug-target interactions (DTI) is an essential part of the drug discovery process, which is an expensive process in terms of time and cost. Therefore, reducing DTI cost could lead to reduced healthcare costs for a patient. In addition, a precisely learned molecule representation in a DTI model could contribute to developing personalized medicine, which will help many patient cohorts. In this paper, we propose a new molecule representation based on the self-attention mechanism, and a new DTI model using our molecule representation. The experiments show that our DTI model outperforms the state of the art by up to 4.9% points in terms of area under the precision-recall curve. Moreover, a study using the DrugBank database proves that our model effectively lists all known drugs targeting a specific cancer biomarker in the top-30 candidate list.
研究动机与目标
- 激发在药物-靶点相互作用(DTI)预测中降低成本并提高准确性,以促进药物发现和个性化医疗。
- 提出一种新的分子表征,使用在大规模 PubChem 数据上预训练的自注意力(Molecule Transformer)。
- 将 Molecule Transformer 与蛋白质 CNN 以及相互作用全连接层整合,用于预测结合亲和力。
- 展示在 Kiba 和 Davis DTI 基准上的最先进性能,并展示在实际药物候选物排序中对 EGFR 的应用案例。
- 探索从化学结构知识到 DTI 预测的迁移学习。
提出的方法
- 介绍 MT-DTI 架构:基于 SMILES 的 Molecule Transformers 与基于 FASTA 的 Protein CNNs,将输出送入 Interaction Denses 预测器。
- 在 97 million PubChem 分子上使用掩码语言模型任务对 Molecule Transformers 进行预训练;使用 [REP] 标记作为固定长度的分子表征。
- 通过嵌入和多层卷积神经网络(带最大池化)对蛋白质进行编码,以产生固定长度的蛋白质表征。
- 将 M_rep 与 P_rep 拼接后,通过三个带 dropout 的全连接层以预测连续的亲和力评分。
- 在 MT-DTI 内对预训练的 Molecule Transformer 进行微调,使用 DTI 数据集(Kiba 和 Davis)。
- 使用 MSE、CI、r_m^2、AUPR 对比基线 KronRLS、SimBoost 和 DeepDTA 进行评估。
实验结果
研究问题
- RQ1基于自注意力的分子表征是否能比基于 CNN 的编码器在 DTI 任务中学习到更丰富的化学结构信息?
- RQ2在 PubChem 上对分子编码器进行预训练,在较小的 DTI 数据集上微调时,是否能够提升 DTI 预测?
- RQ3在 Kiba 和 Davis 基准上,MT-DTI 与现有的最先进 DTI 方法在多项指标上的比较如何?
- RQ4在案例研究中(如 EGFR),该模型是否能有效识别已知的药物候选物?
主要发现
- MT-DTI 在 Kiba 和 Davis 上在 CI、MSE、r_m^2 和 AUPR 上均优于所有基线。
- MT-DTI 在 Kiba 上实现 CI 0.882 和 AUPR 0.837,在 Davis 上实现 CI 0.887 和 AUPR 0.730,均为完全训练(MT-DTI)时的结果。
- MT-DTI 无需微调时就已与某些基线具有竞争力,表明从预训练中学习到有用的化学结构信息。
- 在 PubChem 上使用 97 million 分子进行预训练并随后微调,在两个公开的 DTI 基准上获得最先进的结果。
- 与 DrugBank 的案例研究显示,已知的针对 EGFR 的药物出现在前 30 名预测中,说明实际候选排序的潜力。
- 该模型在更大的训练集上显示出鲁棒性和性能提升(CI 和 AUPR 的标准差降低)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。