QUICK REVIEW
[论文解读] SiMGen example molecules
Rokas Elijošius|arXiv (Cornell University)|Jan 1, 2024
Spectroscopy Techniques in Biomedical and Chemical Research被引用 5
一句话总结
SiMGen 引入了一种使用时依赖相似性核和预训练 ML-力场描述符的零样本分子生成方法,以在不进行额外训练的情况下生成大且有条件的分子。
ABSTRACT
Examples of structures generated using SiMGen.Macrocycles, including their generation trajectories.Small molecules.Baseline comparison of molecules generated via the linear interpolation mentioned in the paper.Note, some of these used an older version of the MACE-OFF models so a slight adjustment of the restorative force parameters might be necessary.The interactive version at https://zndraw.icp.uni-stuttgart.de/ will always have the latest stable version.
研究动机与目标
- 通过在不进行大量模型训练的情况下,使得生成具备理想性质的分子来高效探索海量化学空间这一挑战。
- 利用基于能量的扩散洞见,理解学习到的分数如何引导分子组装与断裂惩罚。
- 开发一个局部性驱动的零样本生成框架(SiMGen),使用时变相似性核和预训练力场描述符来构建任意大小的分子。
- 通过先验和基于点云的约束,提供可控的形状控制和条件生成。
提出的方法
- 训练一个基于能量的扩散模型,将分数视为一个随时间变化的能量 E(x;t),并分析其能量景观。
- 定义一个基于局部原子环境 χ_i 和参考集合 D_ref 的时变相似性能量 E_sim,E_sim(x;t)=∑_i -log f(χ_i;t),其中 f 包含核函数 k(χ_i,χ_j;t)。
- 将先验力、相似性力和准QM力并入一个统一的生成力 F(x;t),形式为 F = k_prior(t)F_prior + k_sim(t)F_sim + k_QM(t)F_QM。
- 通过改良的粒子群优化(PSO)来在不训练炼化分数的情况下优化 z,从而处理元素置换;随后进行氢添加和最终的 QM 松弛。
- 使用一个局部的零样本生成循环(SiMGen),它采用随时间变化的核宽度 σ(t) 在探索与化学精炼之间过渡,从而实现大分子环和连接基结构。
- 通过先验(各向异性高斯先验和点云先验)展示形状控制,并支持使用 ZnDraw 进行交互式受限生成。
实验结果
研究问题
- RQ1在不训练专用生成模型的情况下,零样本生成框架是否能够产生化学上有效且多样化的分子,其分布可与 QM9 类参考分布相媲美?
- RQ2时变相似性核如何影响原子组装以及在生成过程中对断裂的抑制?
- RQ3局部性和先验在多大程度上能够控制生成分子的形状和大小,包括宏环及连接基?
- RQ4将基于相似性的力与 PSO 驱动的炼化优化相结合,是否能够实现鲁棒、具约束感的分子生成?
- RQ5通过 ZnDraw 的交互式受限生成在引导片段连接和形状控制方面有多有效?
主要发现
- 基于相似性的生成,配合时变核,产生的分子在能量和相似性分布上接近 QM9 的参考结构。
- 学习到的能量景观在扩散模型中显示出向分子平滑下降的趋势,并相对于 QM 能量基线对断裂给予惩罚。
- 类似 AirSS 的仅 QM 松弛倾向于产生碎片化产物,而 SiMGen 的炼化与相似性力促使分子变大且碎片更少。
- 使用点云先验和各向异性先验实现形状控制的生成,包括延长的脂肪链、平面共轭结构,以及多达111 个重原子的宏环。
- 零样本生成保持可扩展且局部化,由于核的局部性,能够生成比参考数据集(QM9)更大的分子。
- 通过 ZnDraw 的交互式受限生成允许在不重新训练的情况下对已放置的片段和形状进行条件约束。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。