QUICK REVIEW

[论文解读] Latent Molecular Optimization for Targeted Therapeutic Design

Tristan Aumentado‐Armstrong|arXiv (Cornell University)|Sep 5, 2018

Computational Drug Discovery Methods参考文献 50被引用 38

一句话总结

该论文提出了一种用于靶向治疗设计的潜在分子优化框架，通过图神经网络和变分自编码器将蛋白质结合位点和配体嵌入连续向量空间，实现针对高亲和力、类药物分子的基于梯度的优化。与随机配体相比，该方法在对接验证中显著提升了结合亲和力预测性能，92.9%的优化配体在预测结合亲和力上优于随机对照。

ABSTRACT

We devise an approach for targeted molecular design, a problem of interest in computational drug discovery: given a target protein site, we wish to generate a chemical with both high binding affinity to the target and satisfactory pharmacological properties. This problem is made difficult by the enormity and discreteness of the space of potential therapeutics, as well as the graph-structured nature of biomolecular surface sites. Using a dataset of protein-ligand complexes, we surmount these issues by extracting a signature of the target site with a graph convolutional network and by encoding the discrete chemical into a continuous latent vector space. The latter embedding permits gradient-based optimization in molecular space, which we perform using learned differentiable models of binding affinity and other pharmacological properties. We show that our approach is able to efficiently optimize these multiple objectives and discover new molecules with potentially useful binding properties, validated via docking methods.

研究动机与目标

为解决药物发现中靶向分子设计的挑战，目标是生成对特定蛋白质靶点具有高结合亲和力且具有良好药代动力学性质的分子。
通过在学习到的潜在空间中实现连续的、基于梯度的优化，克服传统方法在离散化学空间和不可微评分函数方面的局限性。
从现有的蛋白质-配体复合物数据中进行泛化，而无需为每个新靶点提供大量生化数据，利用蛋白质结合位点的可迁移表征。
通过学习可微分的结合亲和力模型和内在分子性质（如类药物性、毒性）模型，提升从头分子设计的效率与效果。
通过模拟对接验证该方法，证明优化后的分子在预测结合亲和力方面优于随机配体。

提出的方法

图卷积网络（GCN）将3D蛋白质结合位点编码为向量表征P，将结合位点视为残基和原子构成的图。
连接树变分自编码器（JTVAE）将配体的SMILES字符串嵌入连续潜在向量C，实现对分子结构的可微分操作。
训练三个可微神经网络：直接映射器（P → C）、结合亲和力估计器（C, P → B）以及性质回归器（C → 类药物性、毒性、合成难易度）。
在学习到的潜在化学空间（C）中，利用学习到的模型执行基于梯度的优化，由靶点嵌入P和多目标损失函数引导。
通过将预测的亲和力和药代动力学评分的梯度反向传播至潜在向量C，优化过程生成新分子。
使用rDock进行对接模拟，通过将优化配体与JTVAE先验分布中随机采样的分子进行比较，验证预测的结合亲和力。

实验结果

研究问题

RQ1蛋白质结合位点和配体的潜在空间表征是否能实现有效的、基于梯度的优化，以支持靶向分子设计？
RQ2能否有效学习并利用结合亲和力与药代动力学性质的可微分模型，以指导在连续潜在空间中的分子优化？
RQ3该方法是否能通过利用现有蛋白质-配体复合物的知识，在无需大量靶点特异性数据的情况下实现跨蛋白靶点的泛化？
RQ4通过对接模拟验证，优化后的分子是否在预测结合亲和力方面显著优于随机配体？
RQ5该方法在提升结合亲和力的同时，能在多大程度上保持有利的类药物性质？

主要发现

在961个测试案例中的631例（65.7%）中，优化配体的DSX得分低于其随机对照（表明结合更强），证明了预测亲和力的提升。
在DSX < -100（表明强结合）的对接复合物中，477个优化配体中有443个优于其随机对照，该高亲和力子集中的成功率达到92.9%。
在所有案例中，随机与优化配体的DSX得分差值Δ的中位数为14.5，均值为9.3，标准差为51.5。
在高亲和力子集（DSX < -100）中，Δ的中位数为35.4，均值为36.4，标准差为26.3，表明结合预测性能有显著且一致的提升。
该方法成功生成的分子在结构上比随机分子更接近已知配体，表明其结构相关性更高。
该方法通过学习可微分的评分函数，避免了在优化过程中依赖对接计算，从而实现高效端到端训练与优化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。