Skip to main content
QUICK REVIEW

[论文解读] Symmetry-Informed Geometric Representation for Molecules, Proteins, and Crystalline Materials

Shengchao Liu, Weitao Du|arXiv (Cornell University)|Jun 15, 2023
Advanced Theoretical and Applied Studies in Material Sciences and Geometry被引用 8
一句话总结

该论文基准通过 Geom3D 平台对称性信息几何表示在分子、蛋白质和晶体材料中的表现进行基准评估,比较了 16 个模型和 14 种预训练方法,覆盖 46 个数据集,并就架构、预处理和数据增强提供见解。

ABSTRACT

Artificial intelligence for scientific discovery has recently generated significant interest within the machine learning and scientific communities, particularly in the domains of chemistry, biology, and material discovery. For these scientific problems, molecules serve as the fundamental building blocks, and machine learning has emerged as a highly effective and powerful tool for modeling their geometric structures. Nevertheless, due to the rapidly evolving process of the field and the knowledge gap between science (e.g., physics, chemistry, & biology) and machine learning communities, a benchmarking study on geometrical representation for such data has not been conducted. To address such an issue, in this paper, we first provide a unified view of the current symmetry-informed geometric methods, classifying them into three main categories: invariance, equivariance with spherical frame basis, and equivariance with vector frame basis. Then we propose a platform, coined Geom3D, which enables benchmarking the effectiveness of geometric strategies. Geom3D contains 16 advanced symmetry-informed geometric representation models and 14 geometric pretraining methods over 46 diverse datasets, including small molecules, proteins, and crystalline materials. We hope that Geom3D can, on the one hand, eliminate barriers for machine learning researchers interested in exploring scientific problems; and, on the other hand, provide valuable guidance for researchers in computational chemistry, structural biology, and materials science, aiding in the informed selection of representation techniques for specific applications.

研究动机与目标

  • 提供对称性信息几何方法的统一视角(不变性、带球面基的 SE(3) 伪不变性、带向量基的 SE(3) 伪不变性)。
  • 引入 Geom3D,以基准小分子、蛋白质和晶体材料的几何表示。
  • 实现对几何学习在科学问题中的模型与数据预处理/优化技巧的公平、统一评测。
  • 基准几何表示的预训练策略并评估其在任务间的迁移性。

提出的方法

  • 以帧为基础的视角将几何方法分为不变、带球面基的 SE(3) 伪不变性、以及带向量基的 SE(3) 伪不变性三类。
  • 提供 Geom3D,这是一个基于 PyTorch Geometric 的平台,在 46 个数据集上对 16 个模型和 14 种预训练方法进行基准。
  • 在以下领域进行评估:小分子(QM9、MD17、COLL)、蛋白质(EC、Fold)和晶体材料(MatBench、QMOF)。
  • 研究数据预处理和优化技巧(能量/力归一化、学习率、随机种子)及其影响,并报告结果。
  • 调查现有的几何预训练方法(GeoSSL、GraphMVP、3D InfoMax 等),并讨论单模态与多模态策略。

实验结果

研究问题

  • RQ1不变量和 SE(3) 伪不变几何表示在多样化的分子、蛋白质和材料任务中有何比较?
  • RQ2数据预处理和训练技巧对对称性信息几何模型的性能有何影响?
  • RQ3哪些预训练策略能最好地提升下游量子/机械任务的三维几何表示?
  • RQ4不同的数据增强和帧基底对晶体与周期结构的模型性能有何影响?
  • RQ5Geom3D 能为从业者在特定应用中选择表示技术提供哪些指导?

主要发现

Modelα↓∇E↓E_HOMO↓E_LUMO↓μ↓C_v↓G↓H↓R^2↓U↓U0↓ZPVE↓α0^3 meV↓
1D FPs MLP2.231196.72131.27164.940.5260.9192158.642358.2368.6212340.612314.77155.9212.???
1D FPs RF3.801207.02165.72183.040.5341.4853391.793729.9494.5123705.753678.25253.1322.???
1D FPs XGB2.748199.71139.88165.430.5161.0622563.932804.2782.9592786.282769.29180.9892.???
1D SMILES CNN0.364165.22124.65114.810.5660.173156.66170.5920.403166.18169.8910.0700.???
BERT0.313117.5084.9398.880.4460.176170.01183.4318.002183.84188.6013.4100.???
  • 没有在所有任务上都表现最优的几何模型;PaiNN、GemNet 和 SphereNet 在广泛场景表现良好,但在计算时间上存在权衡。
  • 三维构型相较于一维/二维模型显著提升量子性质预测性能。
  • 数据归一化和精细的预处理在多任务上显著提升性能。
  • 几何预训练(如 MoleculeSDE、GeoSSL-DDM)在 QM9 下游任务上通常优于其他方法,尽管监督式预训练在其目标任务上表现更好。
  • 晶体任务中数据扩增总体上优于扩展的增强。
  • MatBench 和 QMOF 任务的模型性能总体相似,PaiNN、GemNet 和 Equiformer 在某些任务上略胜于其他模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。