QUICK REVIEW

[论文解读] PaccMann: Prediction of anticancer compound sensitivity with multi-modal attention-based neural networks

Ali Oskooei, Jannis Born|arXiv (Cornell University)|Nov 16, 2018

Computational Drug Discovery Methods参考文献 28被引用 27

一句话总结

PaccMann 提出了一种多模态、基于注意力机制的深度学习框架，通过整合 SMILES 编码的分子结构、癌细胞的基因表达谱以及蛋白质-蛋白质相互作用网络，预测抗癌药物敏感性。该方法在使用原始 SMILES 与注意力机制时，优于基于指纹的基线模型，实现了更优的预测性能（平均绝对误差为 0.11），并能可解释地识别影响预测结果的关键原子、化学键和基因。

ABSTRACT

We present a novel approach for the prediction of anticancer compound sensitivity by means of multi-modal attention-based neural networks (PaccMann). In our approach, we integrate three key pillars of drug sensitivity, namely, the molecular structure of compounds, transcriptomic profiles of cancer cells as well as prior knowledge about interactions among proteins within cells. Our models ingest a drug-cell pair consisting of SMILES encoding of a compound and the gene expression profile of a cancer cell and predicts an IC50 sensitivity value. Gene expression profiles are encoded using an attention-based encoding mechanism that assigns high weights to the most informative genes. We present and study three encoders for SMILES string of compounds: 1) bidirectional recurrent 2) convolutional 3) attention-based encoders. We compare our devised models against a baseline model that ingests engineered fingerprints to represent the molecular structure. We demonstrate that using our attention-based encoders, we can surpass the baseline model. The use of attention-based encoders enhance interpretability and enable us to identify genes, bonds and atoms that were used by the network to make a prediction.

研究动机与目标

开发一种多模态深度学习模型，联合利用分子结构、基因表达和蛋白质相互作用数据，预测抗癌化合物的敏感性。
用从原始 SMILES 字符串端到端学习的表示方法替代人工设计的化学指纹，以提升泛化能力与可解释性。
通过注意力机制识别关键原子、化学键和基因，增强模型的可解释性。
采用严格的评估协议，在未见的药物-细胞对上验证模型性能，以确保其稳健性与泛化能力。
证明基于注意力机制的 SMILES 和基因表达编码器在性能上优于传统的 RNN、CNN 和基于指纹的基线模型。

提出的方法

该模型采用多模态架构，处理三种输入：化合物的 SMILES 字符串、癌细胞的基因表达谱以及基于 STRING 的蛋白质-蛋白质相互作用（PPI）网络。
对于 SMILES 编码，评估了三种架构：双向 RNN、一维卷积网络，以及自注意力（SA）和共注意力（CA）机制，用于学习分层表示。
基因表达谱通过基于注意力的机制进行编码，为各个基因分配权重，突出对预测最具信息量的基因。
通过前馈网络融合来自三种模态的表示，预测 IC50 值，损失函数通过平均绝对误差最小化。
在原子层面（SMILES 上）和基因层面（转录组上）计算注意力权重，实现对模型决策过程的可解释性。
采用严格的评估协议，通过从训练数据中完全排除所有验证和测试的药物-细胞对，确保无数据泄露。

实验结果

研究问题

RQ1从原始 SMILES 字符串端到端进行基于注意力机制的学习，是否能在预测抗癌药物敏感性方面优于传统的基于指纹的模型？
RQ2在基因表达谱上应用注意力机制，在多大程度上提升了模型的可解释性与预测性能？
RQ3基于注意力机制的 SMILES 编码器是否能识别出与药物敏感性相关的化学上有意义的特征（如功能基团、原子）？
RQ4在同种器官来源的癌细胞系中，基因的注意力权重如何变化？这些权重是否反映了已知的生物通路？
RQ5整合 PPI 网络是否能提升预测性能，使其超越仅依赖基因表达和分子结构的模型？

主要发现

CA（共注意力）模型在未见的药物-细胞对上取得了最佳性能，平均绝对误差为 0.11，优于基于指纹的基线模型。
基于注意力机制的 SMILES 编码器（SA 和 CA）优于 RNN 和 CNN 编码器，表明原子层面的特征比序列或卷积模式更具预测力。
模型识别出在 Tipifarnib 中氯原子和酰胺基团（-NH2）为高度加权的特征，与已知药效团一致。
EIF2A 和 CBR3 等高权重基因在不同肾癌细胞系中均被一致突出，表明其具有潜在的生物学相关性。
高注意力权重的基因显著富集于 JAK-STAT 信号通路，该通路是癌症治疗中的已知靶点。
注意力机制实现了对关键分子与遗传特征的可解释性识别，增强了模型的生物学合理性与透明度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。