[论文解读] Fr\\'echet ChemNet Distance: A metric for generative models for molecules in drug discovery
本文提出Fréchet ChemNet距离(FCD),一种新颖的评估生成模型在药物发现中表现的度量方法,通过利用训练用于预测药物活性的深度神经网络ChemNet的倒数第二层激活值。FCD计算真实分子与生成分子在ChemNet表征空间中分布之间的Fréchet距离,从而捕捉化学有效性、生物相关性及多样性。该方法在Segler等模型上实现了较低的FCD值(例如1.62),表明其与真实分子具有极高的分布相似性,同时能够检测目标生成中的偏差,并优于基于指纹的基线方法。
The new wave of successful generative models in machine learning has increased the interest in deep learning driven de novo drug design. However, assessing the performance of such generative models is notoriously difficult. Metrics that are typically used to assess the performance of such generative models are the percentage of chemically valid molecules or the similarity to real molecules in terms of particular descriptors, such as the partition coefficient (logP) or druglikeness. However, method comparison is difficult because of the inconsistent use of evaluation metrics, the necessity for multiple metrics, and the fact that some of these measures can easily be tricked by simple rule-based systems. We propose a novel distance measure between two sets of molecules, called Fr\\'echet ChemNet distance (FCD), that can be used as an evaluation metric for generative models. The FCD is similar to a recently established performance metric for comparing image generation methods, the Fr\\'echet Inception Distance (FID). Whereas the FID uses one of the hidden layers of InceptionNet, the FCD utilizes the penultimate layer of a deep neural network called ChemNet, which was trained to predict drug activities. Thus, the FCD metric takes into account chemically and biologically relevant information about molecules, and also measures the diversity of the set via the distribution of generated molecules. The FCD's advantage over previous metrics is that it can detect if generated molecules are a) diverse and have similar b) chemical and c) biological properties as real molecules. We further provide an easy-to-use implementation that only requires the SMILES representation of the generated molecules as input to calculate the FCD. Implementations are available at: https://www.github.com/bioinf-jku/FCD
研究动机与目标
- 为从头药物设计中的生成模型解决缺乏一致且统一的评估度量问题。
- 通过整合化学与生物信息,克服现有度量方法的局限性(如依赖单一描述符(例如logP、药物样性)或基于规则的有效性),实现更全面的评估。
- 开发一种能够捕捉生成分子多样性的度量方法,同时在具有生物意义的表征空间中衡量其与真实分子的相似性。
- 评估FCD是否能够检测生成模型中的偏差,例如对特定靶点(如DRD2或PLK1)的过拟合。
- 提供一个实用的开源实现,以促进可复现性,并在药物发现研究中广泛采用。
提出的方法
- FCD计算从ChemNet倒数第二层提取的分子表征的多变量正态分布之间的Fréchet距离。
- 每个分子通过ChemNet的隐藏激活值进行嵌入,这些激活值编码了在药物活性预测任务训练过程中学习到的化学与生物特征。
- 假设分布为正态分布,计算真实分子(pw)与生成分子(p)的激活分布的一阶矩(均值)与二阶矩(协方差)。
- 使用公式 d² = ||m − mw||² + Tr(C + Cw − 2(C Cw)^1/2) 计算FCD,其中 m、C 为生成分子的均值与协方差,mw、Cw 为真实分子的均值与协方差。
- 该度量应用于生成分子的SMILES字符串,实现与基于序列的生成模型兼容,并支持将图结构模型生成的结果转换为SMILES格式。
- 将FCD与基于指纹的Fréchet距离(FFD)进行比较,以评估表征中引入生物信息所带来的附加价值。
实验结果
研究问题
- RQ1FCD能否作为统一度量,同时评估生成分子的化学与生物相关性?
- RQ2FCD是否能检测生成模型中的分布偏差,例如对DRD2或PLK1等特定蛋白靶点的过拟合?
- RQ3与logP、药物样性或SA评分等现有度量相比,FCD在全面捕捉模型性能方面表现如何?
- RQ4与纯化学表征相比,通过ChemNet引入生物信息在多大程度上提升了度量的敏感性?
- RQ5FCD能否可靠地对生成模型进行排序,使其结果与专家直觉及已有研究发现一致?
主要发现
- Segler方法的FCD值为1.62,表明其与真实分子具有极强的分布相似性,证实其在生成多样化、药物样化合物方面的有效性。
- 针对DRD2活性优化的方法(如ORGAN、RL)表现出显著更高的FCD值(24.14至47.85),表明其与真实分子的完整分布存在明显偏离。
- 增加ORGAN与RL的训练迭代次数导致FCD值上升(例如ORGAN从30次迭代增至60次),证实更长的训练会增强对靶向分子的偏倚,同时降低多样性。
- 基于规则的系统取得了最高的FCD值(58.76),可作为强有力的基线,证实简单系统无法逼近真实分子分布。
- FCD成功检测到PLK1激酶抑制剂生成中的生物偏倚,证明其具备识别目标特异性偏差、偏离全局分子分布的能力。
- FCD优于基于指纹的Fréchet距离(FFD),表明ChemNet表征中的生物信息显著提升了度量的敏感性与判别能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。