[论文解读] Direct Molecular Conformation Generation
本文提出 Direct Molecular Conformation Generation (DMCG),一种直接坐标生成的模型,对旋转-平移和原子对称性不变,并在 GEOM-QM9 和 GEOM-Drugs 的小规模和大规模数据集上展现了最先进的结果。
Molecular conformation generation aims to generate three-dimensional coordinates of all the atoms in a molecule and is an important task in bioinformatics and pharmacology. Previous methods usually first predict the interatomic distances, the gradients of interatomic distances or the local structures (e.g., torsion angles) of a molecule, and then reconstruct its 3D conformation. How to directly generate the conformation without the above intermediate values is not fully explored. In this work, we propose a method that directly predicts the coordinates of atoms: (1) the loss function is invariant to roto-translation of coordinates and permutation of symmetric atoms; (2) the newly proposed model adaptively aggregates the bond and atom information and iteratively refines the coordinates of the generated conformation. Our method achieves the best results on GEOM-QM9 and GEOM-Drugs datasets. Further analysis shows that our generated conformations have closer properties (e.g., HOMO-LUMO gap) with the groundtruth conformations. In addition, our method improves molecular docking by providing better initial conformations. All the results demonstrate the effectiveness of our method and the great potential of the direct approach. The code is released at https://github.com/DirectMolecularConfGen/DMCG
研究动机与目标
- 为直接生成分子三维坐标提供动机并开发方法,而无需依赖中间距离或扭转角。
- 设计对旋转-平移和对称原子置换不变的损失函数。
- 提出一个迭代、基于块的模型,在整合键、原子和全局分子信息的同时改进坐标。
- 引入变分组件以实现多样化构象,并评估对下游任务如对接的效用。
提出的方法
- 定义一个对旋转-平移和置换不变的损失,在任何旋转、平移和对称原子置换下,最小化 ground truth 与生成坐标之间的距离。
- 开发一个在 L 个块之间迭代细化坐标的模型,在每个块之后进行中心归一化以保持坐标稳定。
- 对二维分子图和初始构象进行编码以产生 3D 解码器使用的表示;注入一个潜在变量 z 以实现多样化构象。
- 使用类似 VAE 的目标并带有 KL 正则化,以在端到端训练时鼓励多样化构象。
- 以结合 RTP 损失和 KL 散度的目标进行训练,在推理阶段从先验中抽样 z。
- 通过图同构构建置换集 S 来处理对称性,确保对称原子映射下的损失不变。
实验结果
研究问题
- RQ1我们是否可以在遵循旋转-平移和置换不变性的前提下直接生成分子坐标?
- RQ2直接使用迭代、分块架构预测坐标,是否比基于距离或扩散的方法在构象质量上有改善?
- RQ3引入潜在变量是否能够实现多样且准确的构象,并且是否有助于下游任务如对接?
主要发现
| Method | QM9_COV_mean | QM9_COV_median | QM9_MAT_mean | QM9_MAT_median | Drugs_COV_mean | Drugs_COV_median | Drugs_MAT_mean | Drugs_MAT_median |
|---|---|---|---|---|---|---|---|---|
| RDKit | 83.26 | 90.78 | 0.3447 | 0.2935 | 60.91 | 65.70 | 1.2026 | 1.1252 |
| CVGAE | 0.09 | 0.00 | 1.6713 | 1.6088 | 0.00 | 0.00 | 3.0702 | 2.9937 |
| GraphDG | 73.33 | 84.21 | 0.4245 | 0.3973 | 8.27 | 0.00 | 1.9722 | 1.9845 |
| CGCF | 78.05 | 82.48 | 0.4219 | 0.3900 | 53.96 | 57.06 | 1.2487 | 1.2247 |
| ConfVAE | 80.42 | 85.31 | 0.4066 | 0.3891 | 53.14 | 53.98 | 1.2392 | 1.2447 |
| GeoMol | 71.26 | 72.00 | 0.3731 | 0.3731 | 67.16 | 71.71 | 1.0875 | 1.0586 |
| ConfGF | 88.49 | 94.13 | 0.2673 | 0.2685 | 62.15 | 70.93 | 1.1629 | 1.1596 |
| DGSM | 91.49 | 95.92 | 0.2139 | 0.2137 | 78.73 | 94.39 | 1.0154 | 0.9980 |
| GeoDiff | 90.54 | 94.61 | 0.2090 | 0.1988 | 89.13 | 97.88 | 0.8629 | 0.8529 |
| DMCG | 96.23 | 99.26 | 0.2083 | 0.2014 | 96.52 | 100.00 | 0.7220 | 0.7161 |
- DMCG 在所有测试设置上实现了基于召回的覆盖率(COV)和匹配度(MAT)的最先进分数。
- 在小规模 QM9 上,DMCG 的 COV 平均為 96.23% 且 MAT 平均为 0.2083 Å,中位数分别为 99.26% 和 0.2014 Å。
- 在小规模 Drugs 上,DMCG 的 COV 平均为 96.52% 且 MAT 平均为 0.7220 Å,中位数分别为 100.00% 和 0.7161 Å。
- 在大规模 QM9 上,DMCG 的 COV 平均为 98.34% 且 MAT 平均为 0.1486 Å,中位数分别为 100.00% 和 0.1340 Å。
- 在大规模 Drugs 上,DMCG 的 COV 平均为 96.22% 且 MAT 平均为 0.6967 Å,中位数分别为 100.00% 和 0.6552 Å。
- DMCG 提供的构象在性质上接近地面真值(例如 HOMO-LUMO 间隙),并通过提供更好的初始构象来提升分子对接。
- DMCG 在解码方面计算高效,能扩展到大规模数据集,相对于若干基线方法具有显著的加速优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。