[论文解读] Drug Similarity Integration Through Attentive Multi-view Graph Auto-Encoders
本文提出注意力多视角图自编码器(AttSemiGAE),将异构药物特征(如化学结构、适应症、TTDS 和 CPI)整合为统一且可解释的药物相似性度量。通过利用基于注意力的视角加权图自编码器,该模型在标签稀缺的情况下提升了药物-药物相互作用(DDI)的预测准确率,并实现了半监督、鲁棒且可解释的相似性学习。
Drug similarity has been studied to support downstream clinical tasks such as inferring novel properties of drugs (e.g. side effects, indications, interactions) from known properties. The growing availability of new types of drug features brings the opportunity of learning a more comprehensive and accurate drug similarity that represents the full spectrum of underlying drug relations. However, it is challenging to integrate these heterogeneous, noisy, nonlinear-related information to learn accurate similarity measures especially when labels are scarce. Moreover, there is a trade-off between accuracy and interpretability. In this paper, we propose to learn accurate and interpretable similarity measures from multiple types of drug features. In particular, we model the integration using multi-view graph auto-encoders, and add attentive mechanism to determine the weights for each view with respect to corresponding tasks and features for better interpretability. Our model has flexible design for both semi-supervised and unsupervised settings. Experimental results demonstrated significant predictive accuracy improvement. Case studies also showed better model capacity (e.g. embed node features) and interpretability.
研究动机与目标
- 解决将异构、噪声大且非线性的药物特征(如化学结构、适应症、不良反应)整合为统一相似性度量的挑战。
- 克服多视角药物相似性学习中模型准确率与可解释性之间的权衡。
- 在标签稀疏或半监督设置下,利用图自编码器实现有效的药物-药物相互作用(DDI)预测。
- 构建一个灵活的框架,支持药物相似性整合的半监督与无监督学习。
- 提升对噪声数据的鲁棒性,特别是在‘正样本未标注’的情形下,即相互作用未被显式标注时。
提出的方法
- 将每种药物建模为一个多视角图中的节点,其中每个视角对应一种不同的药物特征类型(如化学指纹、适应症、TTDS、CPI)。
- 使用图自编码器(GAE)学习保留各视角间结构与特征关系的低维节点嵌入。
- 引入注意力机制,根据任务相关性动态分配各视角的权重,实现自适应且可解释的多视角融合。
- 将 GAE 的重构损失形式化为正则化项,以保留图结构,从而有效利用未标记数据。
- 通过将标签视为无特征时的隐变量,将模型扩展至归纳设置,仅依赖图结构即可实现预测。
- 使用可微分注意力机制端到端优化模型,学习每项任务中哪些视角对相似性预测贡献最大。
实验结果
研究问题
- RQ1与传统方法相比,基于注意力的多视角融合是否能提升药物相似性度量的准确率与可解释性?
- RQ2当标签稀缺或存在噪声时,所提出的模型在预测药物-药物相互作用(DDI)方面的表现如何?
- RQ3注意力权重在多大程度上能反映已知的 DDI 生物机制,从而增强模型的可解释性?
- RQ4整合多种异构药物特征(如化学、适应症、CPI)相较于单视角或均匀加权融合,如何改善相似性表征?
- RQ5图自编码器框架在归纳或半监督设置下,能否有效利用未标记数据以提升 DDI 预测性能?
主要发现
- AttSemiGAE 模型在 DDI 预测中实现了显著的 AUC 提升,其中‘胸痛’的 AUC 达 0.772,‘失眠’的 AUC 达 0.755,优于基线方法。
- 注意力权重揭示了生物学上合理的特征重要性:对于‘胸痛’,CPI 和适应症特征的权重分别为 0.402 和 0.303,与蛋白质相互作用和药物共用的已知机制一致。
- 对于‘失眠’,模型正确强调了化学结构和 CPI 特征(权重分别为 0.380 和 0.291),与 CYP450 介导的代谢机制相符。
- 该模型为阿昔洛韦与更昔洛韦计算出的综合相似性评分为 0.682,显著高于标签传播方法的 0.551,反映出二者高达 0.961 的结构相似性及共享的 DDI。
- 在阿普唑仑-依托唑仑与阿普唑仑-三唑仑等情形中,模型对化学结构和 CPI 特征赋予更高权重,相似性评分达 0.682–0.720,而基线方法因采用均匀视角加权,得分较低(0.551–0.630)。
- 该模型对噪声表现出鲁棒性,通过自编码学习稳定且抗噪的表示,有效处理了‘正样本未标注’的情形,即相互作用未被显式标注的情况。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。