Skip to main content
QUICK REVIEW

[论文解读] Torsional Diffusion for Molecular Conformer Generation

Bowen Jing, Gabriele Corso|arXiv (Cornell University)|Jun 1, 2022
Mathematical Biology Tumor Growth被引用 81
一句话总结

一种在扭转角度(在高维环面上)上操作的扩散模型,用于生成分子构象,达到 GEOM-DRUGS 的最先进结果,所需降噪步骤更少,并为 Boltzmann 采样提供精确似然。

ABSTRACT

Molecular conformer generation is a fundamental task in computational chemistry. Several machine learning approaches have been developed, but none have outperformed state-of-the-art cheminformatics methods. We propose torsional diffusion, a novel diffusion framework that operates on the space of torsion angles via a diffusion process on the hypertorus and an extrinsic-to-intrinsic score model. On a standard benchmark of drug-like molecules, torsional diffusion generates superior conformer ensembles compared to machine learning and cheminformatics methods in terms of both RMSD and chemical properties, and is orders of magnitude faster than previous diffusion-based models. Moreover, our model provides exact likelihoods, which we employ to build the first generalizable Boltzmann generator. Code is available at https://github.com/gcorso/torsional-diffusion.

研究动机与目标

  • 通过专注于扭转自由度来实现高效的构象生成,其中分子的柔性主要集中在此。
  • 开发一个外在到内在的分数模型,该模型在处理 3D 点云时同时尊重 SE(3) 和奇偶对称性。
  • 在扭转角上的高维环面上公式化扩散,并实现对 Boltzmann 風格训练的精确似然计算。
  • 展示最先进的构象集合质量和化学相关性质,优于传统的 ML 与化学信息学基线。
  • 引入扭转 Boltzmann 发生器,以实现对未见分子的 Boltzmann 分布的通用采样。

提出的方法

  • 将扭转角上的扩散公式化为高维环面 T^m 上的扩散过程,采用卷绕正态扰动核。
  • 使用一个外在到内在的分数模型,该模型接受 3D 构象(外在坐标)并以在 SE(3) 不变、对称等效的方式输出扭转更新(内在空间)。
  • 通过对每个可转动键使用最终伪扭矩层的伪标量输出来预测扭转更新,确保 SE(3) 不变性和对称等效性。
  • 利用概率流 ODE 和直接散度项计算扭转角的精确对数似然,从而实现能量基训练与 Boltzmann 分布。
  • 通过一个基于行列式的因子将扭转似然转换到欧几里得空间,以将 p_G(tau|L) 与 p_G(x|L) 联系起来。
  • 描述利用 Boltzmann 样本加权去噪分数匹配损失的能量基训练,使其能作为用于构象生成的流的分数模型进行学习。

实验结果

研究问题

  • RQ1扩散在 hypertorus 上的扭转角是否能生成在传统化学信息学和欧几里得扩散方法之上的构象集合?
  • RQ2一个外在到内在的 SE(3) 不变分数模型是否能在没有规范扭转定义的情况下实现鲁棒、依分子而异的扭转更新?
  • RQ3是否可以为扭转构象计算精确似然,从而实现 Boltzmann-生成器风格的训练和对未见分子的通用采样?
  • RQ4扭转扩散方法是否在减少所需的去噪步数的同时提升集合质量与化学性质?

主要发现

MethodRecall MeanRecall MedPrecision MeanPrecision MedCoverage MeanCoverage MedAMR MeanAMR Med
RDKit ETKDG38.428.61.0581.00240.930.80.9950.895
OMEGA53.454.60.8410.76240.533.30.9460.854
GeoMol44.641.40.8750.83443.036.40.9280.841
GeoDiff42.137.80.8350.80924.914.51.1361.090
Torsional Diffusion72.780.00.5820.56555.256.90.7780.729
  • 在 GEOM-DRUGS 上,扭转扩散在覆盖率(Coverage)和 AMR 方面超过基线,优于 RDKit ETKDG、OMEGA、GeoMol 和 GeoDiff。
  • 扭转扩散实现 Recall 72.7% 和 80.0% 以及 Precision 0.582 和 0.565,均值/中位数分别优于前述方法。
  • 相比欧几里得扩散基线,它需要显著更少的去噪步骤(最少 5–20 步,而 GeoDiff 需要数千步),同时提供更好的程序集质量。
  • 程序集性质如能量、偶极矩和 HOMO-LUMO 间隙与真实值的对齐有所改善,中位数最低能量构象距离全局极小值仅 0.13 kcal/mol。
  • 扭转 Boltzmann 生成器实现了对未见分子的 Boltzmann 分布的通用采样,在有效样本量方面优于 AIS 基线,且仅需适量的重采样步骤。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。